NVIDIA 為開放運算專案貢獻 NVIDIA GB200 NVL72 設計

年OCP 全球高峰會期間,NVIDIA 宣布已向開放運算專案 (OCP)貢獻了NVIDIA GB200 NVL72機架以及運算和交換器托盤液冷設計。

這篇文章提供了有關此貢獻的詳細信息,並解釋了它如何提高當前設計標準的實用性,以滿足現代資料中心的高計算密度需求。它還探討了生態系統如何建構在 GB200 設計之上,從而降低新人工智慧資料中心的成本和實施時間。

NVIDIA 開源計劃

NVIDIA 擁有豐富的開源計畫歷史。 NVIDIA 工程師已在 GitHub 上發布了 900 多個軟體項目,並開源了 AI 軟體堆疊的重要元件。例如,NVIDIA Triton 推理伺服器現已整合  到所有 澳大利亞電話號碼數據  主要雲端  服務供應商中,為生產中的 AI 模型提供服務。此外,NVIDIA 工程師也積極參與許多開源基金會和標準機構,包括 Linux 基金會、Python 軟體基金會和 PyTorch 基金會。

這種對開放性的承諾也延伸到了開放運算項目,NVIDIA 在該項目中持續為多代硬體產品做出設計貢獻。值得注意的貢獻包括NVIDIA HGX H100 基板(它已成為 AI 伺服器事實上的基板標準)和NVIDIA ConnectX-7適配器(現在作為 OCP 網路介面卡 (NIC) 3.0 的基礎設計)。

NVIDIA 也是 OCP SAI (交換器抽象介面)專案的創始成員和治理委員會成員,並且是SONiC(雲端中開放式網路軟體)專案 的第二大貢獻者。

电话号码数据

 

滿足資料中心運算需求

訓練自回歸 Transformer 模型所需的運算能力呈現爆炸性成長,在過去 5 年中成長了驚人的 20,000 倍。 Meta 今年稍早推出的 Llama 3.1 405B 車型需要 380 億千萬億次加速運算來訓練,比一年前 最後的資料庫 推出的 Llama 2 70B 車型多 50 倍。這些大型模型的訓練和服務無法在單一 GPU 上進行管理;相反,它們必須跨大規模 GPU 叢集並行化。

並行有多種形式——張量並行、管道並行和專家並行,每種形式在吞吐量和用戶互動性方面都提供了獨特的優勢。通常,這些方法會結合起來創建最佳的訓練和推理部署策略,以滿足使用者體驗要求和資料中心預算目標。若要更深入了解大型模型的平行技術,請參閱揭秘萬億參數 LLM 的推理部署。

多 GPU 互連的重要性

模型並行性帶來的一項常見挑戰是 GPU 之間的大量通訊。張量平行 GPU 通訊模式凸顯了這些 GPU 的互連程度。例如,對於 AllReduce,在確定最終模型輸出之前,每個 GPU 都必須將其運算結 資料庫數據 果傳送到神經網路每一層的其他 GPU。這些通訊期間的任何延遲都可能導致效率顯著降低,GPU 會處於空閒狀態,等待通訊協定完成。這會降低整體系統效率並增加總擁有成本 (TCO)。

加速基礎設施創新與貢獻

要在單一機架中支援如此大的 GPU NVLink 域的重量、插入式接力和冷卻要求,需要對機架架構以及容納 GPU 和 NVSwitch 晶片的運算和交換器機箱進行仔細的電氣和機械修改。

NVIDIA 與合作夥伴密切合作,以現有設計原則為基礎,提高其實用性並支援GB200 NVL72 的高運算密度和能源效率。機架、托盤和內部元件設計源自 NVIDIA MGX 架構。今天,我們很高興與 OCP 一起開放並貢獻這些設計,為 AI 建立模組化、可重複使用的高運算密度基礎設施。

 

機架加固

為了在單一機架中高效容納 18 個運算托盤、9 個交換器托盤和 4 個支援 5,000 多條銅纜的 NVLink 盒,NVIDIA 對現有機架設計進行了多項關鍵修改,包括:

  • 進行了調整,以支援機架內 1 RU 外形尺寸的 19 吋 EIA 設備,使可用於 IO 佈線的空間加倍並提高托盤密度。
  • 添加超過 100 磅的鋼筋,顯著提高了機架的強度和穩定性,可承受其組件和框架之間產生的 6,000 磅的配合力。
  • 採用後機架延伸件來保護電纜支架和歧管配件,確保這些元件的使用壽命和正常運作。
  • 引入盲插滑軌和閉鎖功能,以方便 NVLink 安裝、液體冷卻系統整合以及使用盲插連接器簡化維護程序。這種機架重新設計優化了空間利用率,增強了結構完整性,並提高了整體系統的可靠性和可維護性。

高容量母線

為了適應機架的高運算密度和增加的功率需求,我們為增強型高容量母線開發了新的設計規格。這種升級後的母線保持與現有 ORV3 相同的寬度,但具有更深的輪廓,顯著增加了載流量。新設計支援更高的 1,400 安培電流,與目前標準相比,電流強度增加了 2 倍。這項增強功能可確保母線能夠有效地滿足現代高效能運算環境中更高的功率需求,而無需在機架內留出額外的水平空間。

NVLink 墨水匣

為了實現 NVLink 域中所有 72 個 NVIDIA Blackwell GPU 之間的高速通信,我們實施了一種新穎的設計,在機架後部垂直安裝了四個 NVLink 盒。這些盒可容納超過 5,000 條有源銅纜,提供令人印象深刻的 130 TB/s 的 All-to-All 總頻寬和 260 TB/s 的 AllReduce 頻寬。

這種設計確保每個 GPU 都能以 1.8TB/s 的速度與域中的所有其他 GPU 進行通信,從而顯著提高整體系統效能。作為我們提交的內容的一部分,我們將提供有關這些 NVLink 盒的體積和精確安裝位置的詳細信息,為高效能運算基礎設施的未來實施和改進做出貢獻。

液體冷卻歧管和浮動盲插

為了有效管理機架所需的 120 KW 冷卻能力,我們實施了直接液體冷卻技術。在現有設計的基礎上,我們引進了兩項關鍵創新。首先,我們開發了增強型 Blind Mate 液體冷卻歧管設計,能夠提供高效冷卻。

其次,我們創建了一種新穎的浮動盲插托盤連接,該連接可有效地將冷卻劑分配到計算托盤和交換機托盤,從而顯著提高液體快速斷開裝置在機架中對齊和可靠插配的能力。透過利用這些增強型液體冷卻解決方案,我們能夠滿足現代高效能運算環境的高熱管理需求,確保機架組件的最佳效能和使用壽命。

 

返回頂端