share_log

英伟达的GB200,怎么部署?

英偉達的GB200,怎麼部署?

如果您希望可以時常見面,歡迎標星 收藏哦~

來源:內容由半導體行業觀察(ID:icbank)編譯自semianalysis,謝謝。

Nvidia 的 GB200通過卓越的硬件架構帶來了顯著的性能提升,但部署複雜性也急劇上升。雖然從表面上看,Nvidia 已經發布了一個標準機架,人們只需在數據中心安裝它,無需太多麻煩,即插即用,但實際情況是,有幾十種不同的部署變體,各有優缺點,而且一代一代的複雜性都在顯著增加。供應鏈爲終端數據中心部署者、雲、服務器 OEM/ODM 和下游組件供應鏈進行了重新設計。

今天,我們將從頭到尾介紹 GB200 的不同外形尺寸,以及它們與之前的 8 GPU HGX 基板服務器相比有何變化。我們將細分 GB200 機架的 50 多個不同子組件的單位數量、供應商市場份額和成本。此外,我們將深入研究對子組件供應鏈產生重大影響的超大規模定製。

Blackwell 的 4 種機架規模形式

GB200 機架提供 4 種不同的主要外形尺寸,每種尺寸均可定製。

GB200 NVL72

GB200 NVL36x2

GB200 NVL36x2(Ariel)

x86 B200 NVL72/NVL36x2

第一個是GB200 NVL72 外形尺寸。這種外形尺寸需要大約 120kW/機架。爲了說明這種密度,通用 CPU 機架支持高達 12kW/機架,而更高密度的 H100 風冷機架通常僅支持大約 40kW/機架。每機架超過 40kW 是 GB200 需要液體冷卻的主要原因。

GB200 NVL72 機架由 18 個 1U 計算托盤和 9 個 NVSwitch 托盤組成。每個計算托盤高 1U,包含 2 個 Bianca 板。每個 Bianca 板包含 1 個 Grace CPU 和 2 個 Blackwell GPU。NVSwitch 托盤有兩個 28.8Gb/s NVSwitch5 ASIC。

除了一個超大規模企業計劃將其作爲主要變體進行部署外,我們認爲在 Blackwell Ultra 之前,這個版本將很少被部署,因爲大多數數據中心基礎設施即使採用直接芯片液體冷卻 (DLC) 也無法支持如此高的機架密度。

下一個外形尺寸是GB200 NVL36 * 2 ,它是兩個並排互連在一起的機架。大多數 GB200 機架將使用此外形尺寸。 每個機架包含 18 個 Grace CPU 和 36 個 Blackwell GPU。在 2 個機架之間,它仍然保持 NVL72 中的所有 72 個 GPU 之間的無阻塞。每個計算托盤的高度爲 2U,包含 2 個 Bianca 板。每個 NVSwitch 托盤都有兩個 28.8Gb/s NVSwitch5 ASIC 芯片。每個芯片有 14.4Gb/s 指向背板,14.4Gb/s 指向前板。每個 NVswitch 托盤有 18 個 1.6T 雙端口 OSFP 籠,水平連接到一對 NVL36 機架。

每機架功率和冷卻密度爲 66kW,NVL36 機架共計 132kW * 2。這是上市時間解決方案,因爲每機架僅爲 66kW/機架。不幸的是,由於額外的 NVSwitch ASIC 和跨機架互連佈線的要求,NVL36x2 系統確實比 NVL72 多耗電約 10kW。NVL36x2 總共有 36 個 NVSwitch5 ASIC,而 NVL72 上只有 18 個 NVSwitch5 ASIC。即使總功率增加了 10kW,大多數公司明年仍將部署此版本而不是 NVL72,因爲他們的數據中心無法支持每機架 120kW 的密度。我們將在後面的液體冷卻部分討論其原因。

最後一種形式是帶有定製“Ariel”板(而不是標準 Bianca)的特定機架。我們相信這種變體將主要由 Meta 使用。由於 Meta 的推薦系統訓練和推理工作負載,它們需要更高的 CPU 核心和每 GPU 更多的內存比率,以便存儲大量嵌入表並在 CPU 上執行預處理/後處理。

內容與標準 GB200 NVL72 類似:但 Bianca 板被替換爲具有 1 個 Grace CPU 和 1 個 Blackwell GPU 的 Ariel 板。由於每個 GPU 的 Grace CPU 內容翻倍,因此與 NVL36x2 相比,此 SKU 的價格會更高。與 NVL36x2 類似,每個 NVSwitch 托盤有 18 個 1.6T 雙端口 OSFP 籠(cages ),水平連接到一對 NVL36 機架。

我們認爲 Meta 的大部分分配將是普通的 NVL36x2,因爲它更適合 GenAI 工作負載,而 Ariel 版本將僅用於其最大的推薦系統工作負載。雖然沒有什麼可以阻止 Ariel 用於 GenAI 工作負載,但 CPU 的過度配置意味着從TCO 的角度來看,它將因更高的資本成本和功耗而處於劣勢。

最後,2025 年第二季度將推出B200 NVL72 和 NVL36x2 規格,它們將使用 x86 CPU 而不是 Nvidia 內部的 grace CPU。這種規格稱爲 Miranda。我們認爲每個計算托盤的 CPU 到 GPU 的比例將保持不變,即每個計算托盤 2 個 CPU 和 4 個 GPU。

我們認爲,與 Grace CPU 版本相比,NVL72/NVL36x2 的這一變體將具有較低的前期資本成本,流向 Nvidia 的收入也會減少。由於它使用的是 x86 CPU,因此與 Grace C2C 相比,CPU 到 GPU 的帶寬將低得多,後者可以以高達 900GB/s 的雙向速度(450GB/s)與 GPU 通信。因此,TCO 值得懷疑。此外,由於 x86 CPU 無法在 CPU 和 GPU 之間共享功率以優化工作負載,因此所需的總峯值功率要高得多。在我們的加速器模型中,我們細分了 GB200 規格以及前 50 名買家將部署的確切數量。

電力預算估算

我們估計每個計算托盤的最大 TDP 爲 6.3kW。計算托盤的大部分功耗來自每個托盤中的兩個 Bianca 板和 8 個風扇。NVL72 中的 NVSwitch 托盤不需要在機架之間連接,因此與 NVL36 相比,功耗降低了 170W。使用 NVL36,有 18 條 1.6T ACC 電纜水平連接到相鄰機架。我們將在後續章節中解釋 NVLink 拓撲。每個 NVL72 123.6kW 是總功耗,包括從鞭狀電纜的交流電整流到計算托盤所接收的直流電的低效率。

而對於 NVL36*2,每個機架的最大 TDP 約爲 67kW,而兩個機架對的功耗約爲 132kW。與 NVL72 相比,這大約多耗電 10kW。

計算托盤圖和佈線

GB200 NVL72/NVL36x2 的核心是 Bianca 主板。Bianca 主板包含兩個 Blackwell B200 GPU 和一個 Grace CPU。主板上的 CPU 和 GPU 比率現在爲 1:2,而 GH200 的比率爲 1:1。大多數評估 GH200 的客戶都告訴 Nvidia,它太貴了,因爲 1:1 的 CPU 比率對於他們的工作量來說太高了。這是 GH200 出貨量與 HGX H100(2 個 x86 CPU,8 個 H100 GPU)相比如此低的主要原因之一。對於 Blackwell 來說,GB200 的出貨量相對較高,與 HGX Blackwell B100/B200 相比,單位出貨量將出現交叉。

通常在 Hopper 和 Blackwell HGX 服務器中,CPU 和 GPU 之間有 Broadcom PCIe 交換機。對於 GB200,CPU 和 GPU 都在同一 PCB 上,從而將插入損耗降低到不再需要在參考設計上的 CPU 和 GPU 之間使用交換機或重定時器的程度。從表面上看,這對 Astera Labs 來說是極其不利的。它現在有約 35% 的空頭持倉,但這些空頭持倉主要來自那些沒有深入關注供應鏈、只知道參考設計中沒有重定時器的人。

該參考設計的另一個有趣之處是,不再使用典型的 MCIO PCIe x16 連接器將主 PCB 板連接到 PCIe 外形尺寸的 ConnectX-7/8,而是將 ConnectX-7/8 IC 通過 Mirror Mezz 連接器使用夾層板直接放置在 Bianca 板的頂部。

這樣做的好處是可以使用同一個冷卻板來冷卻 CPU、GPU 和 ConnectX-7/8 NIC。電氣通道通過夾層板的 DensiLink 連接器路由到機箱前部的 OSFP 籠。這類似於 Nvidia 在其鍍金 DGX H100 機箱上使用 DensiLink 從 ConnectX-7 路由到 OSFP 籠的方式。

與 Dual GH200 類似,在同一個計算托盤內,有一個高速連貫 NVLink 連接,雙向帶寬高達 600GB/s(單向帶寬爲 300GB/s)。這是一個極快的連接,允許 CPU 共享資源和內存,類似於擁有 2 個 CPU 和 NUMA(非統一內存訪問)區域的 HGX H100/B100/B200 服務器。

由於這種連接兩個 Bianca 板的連貫鏈路,您可以在 CPU 之間共享內存、存儲和資源(例如 NIC)。因此,您將能夠減少前端 NIC 的數量,並且每個計算托盤只有 1 個前端 NIC,而不是參考設計中建議的 2 個。這類似於 x86 中的情況,即使每個服務器有 2 個 CPU,您也只需要 1 個前端 NIC,因爲 CPU 能夠共享資源。我們將在前端網絡部分進一步討論這一點。

至於 2700 瓦電源如何進入主板,CPU 和 GPU 各自的電壓調節器模塊 (VRM) 周圍有 4 個 RapidLock 12V DC 和 4 個 RapidLock GND(接地)電源連接器。這些 12V 和 GND 電源連接器將連接到計算托盤的配電板 (PDB)。配電板從機架級母線獲取 48V DC,並將其降壓爲 12V DC 以提供給 Bianca 主板。

就內部計算托盤電纜 + 連接器而言,大部分成本主要由連接 ConnectX-7/8 夾層板和 Bianca 板的 Mirror 夾層連接器以及從 ConnectX-7/8 連接到機箱正面的 OSFP 籠的 DensiLink 電纜決定。

在 Nvidia 參考設計中,每個計算托盤有兩個 Bluefield-3,但正如後面章節所述,我們相信大多數公司根本不會選擇任何 Bluefield-3。在機箱的前面,您可以找到所有典型的與服務器相關的管理端口,如 RJ45、USB 等。還有八個用於本地節點級存儲的 NVMe 存儲托架,您還可以找到橫向擴展後端 OSFP 籠。

後端框架引導我們討論 GB200 中最關鍵的部分之一:網絡。

聯網

與 HGX H100、AMD MI300X、Intel Gaudi、AWS Trainium 類似,GB200 系統中有 4 種不同的網絡:

前端網絡(普通以太網)

後端網絡(InfiniBand/RoCE 以太網)

加速器互連 (NVLink)

帶外網絡

簡單回顧一下,前端網絡只是您用來連接互聯網、SLURM/Kubernetes、網絡存儲、數據加載、模型檢查點的普通以太網網絡。此網絡通常爲每 GPU 25-50Gb/s,因此在 HGX H100 服務器上,每臺服務器爲 200-400Gb/s,而在 GB200 計算機托盤節點上,每臺服務器爲 200-800Gb/s,具體取決於配置。

您的後端網絡用於在數百到數千個機架之間擴展 GPU-GPU 通信。該網絡可以是 Nvidia 的 Infiniband 或 Nvidia Spectrum-X 以太網或 Broadcom 以太網。與Broadcom 以太網解決方案相比,Nvidia 提供的選項要昂貴得多。

擴展加速器互連(Nvidia 上的 NVLink 、AMD 上的 Infinity Fabric/UALink、Google TPU 上的 ICI 、Amazon Trainium 2 上的 NeuronLink)是一種超高速網絡,可將系統內的 GPU 連接在一起。在 Hopper 上,此網絡將 8 個 GPU 連接在一起,每個 GPU 的速度爲 450GB/s,而在 Blackwell NVL72 上,它將 72 個 GPU 連接在一起,每個 GPU 的速度爲 900GB/s。Blackwell 有一個名爲 NVL576 的變體,它將 576 個 GPU 連接在一起,但基本上沒有客戶會選擇它。通常,您的加速器互連比後端網絡快 8-10 倍。

最後,還有帶外管理網絡,用於重新映像您的操作系統,監控節點健康狀況(如風扇速度、溫度、功耗等)。服務器、PDU、交換機、CDU 上的基板管理控制器 (BMC) 通常連接到此網絡以監控和控制這些 IT 設備。

NVLink 擴展互連

與 HGX H100 相比,GB200 的前端、後端和帶外網絡基本相同,但 NVLink 擴展到機箱外部除外。只有超大規模定製一代又一代不同。之前在 HGX H100 中,8 個 GPU 和 4 個 NVSwitch4 交換機 ASIC 使用 PCB 走線連接在一起,因爲它們位於同一 PCB(即 HGX 基板)上。

現在,在 HGX Blackwell 上,NVSwitch ASIC 位於中間,以減少 PCB 走線的長度,因爲升級了 224G SerDes

但是在 GB200 上,NVSwitches 與 GPU 位於不同的托盤上,因此您需要使用光學或 ACC 在它們之間進行連接。

在 NVL72 中,它們保留了與 HGX Hopper/Blackwell 相同的扁平 1 層 NVLink 拓撲,這樣您只需通過 NVSwitch 進行 1 跳即可與同一機架內的任何 GPU 通信。這與 AMD 和 Intel 的當前一代互連不同,後者無需交換機即可直接從 GPU 連接到 GPU,從而降低了加速器到加速器的帶寬。

在 NVL36x2 中,只需 1 跳(hop)即可到達同一機架中的 36 個 GPU 中的任何一個,但爲了與旁邊機架中的其他 36 個 GPU 通信,需要 2 個 NVSwitch 跳才能跨機架。直觀地看,一個額外的跳會增加延遲,但對於訓練來說並不明顯。它會對推理產生輕微影響,但不會太大,除非目標是在batch 1 中實現極高的交互性(>500TPS)而無需推測解碼。請注意,這是一個非常不切實際的場景,我們不希望任何人利用它。

Nvidia 聲稱,如果他們使用帶收發器的光學器件,則需要爲每個 NVL72 機架增加 20kW。我們進行了計算,發現需要使用 648 個 1.6T 雙端口收發器,每個收發器的功耗約爲 30W,因此計算結果爲 19.4kW/機架,與 Nvidia 的說法基本相同。每個 1.6T 收發器的價格約爲 850 美元,僅收發器成本一項就高達每機架 550,800 美元。如果按 Nvidia 75% 的毛利率計算,則意味着最終客戶需要爲每機架 NVLink 收發器支付 2,203,200 美元。這是 DGX H100 NVL256 因收發器成本過高而從未發貨的主要原因之一。此外,與銅纜甚至上一代光纖相比,1.6T NVLink 收發器等前沿收發器的可靠性要差得多。

因此,這就是 Nvidia 選擇使用 5184 根有源銅纜 (ACC) 的原因,這是一種更便宜、更省電、更可靠的選擇。每個 GPU 都有 900GB/s 的單向帶寬。每個差分對 (DP) 能夠在一個方向上傳輸 200Gb/s,因此每個 GPU 需要 72 個 DP 才能實現雙向傳輸。由於每個 NVL72 機架有 72 個 GPU,這意味着有 5184 個差分對。每條 NVLink 電纜包含 1 個差分對,因此有 5184 條電纜。

這是一代又一代銅含量的大幅增加。令人吃驚的是,我們看到一些投資者估計每 GPU 的 NVLink 互連內容約爲 3000 美元,總價值達到 216000 美元/NVL72 機架,但這完全是錯誤的。

首先,人們怎麼會得出每 GPU 3000 美元這樣的荒謬數字?我們認爲,他們以每 GPU 900GB/s(7200Gb/s)的單向帶寬爲例,並計算出 400Gb/s 銅纜的零售價爲 162 美元。由於每 GPU 需要 18 條 400Gb/s 全雙工電纜,因此每 GPU 的價格將達到 3000 美元。這個數字大錯特錯。

此外,人們誤以爲電纜很貴。大部分成本不是來自電纜本身,而是來自電纜和連接器的端接。連接器很貴,因爲它們需要防止不同差分對之間的串擾。串擾非常嚴重,因爲它會模糊其他信號並導致錯誤,導致解串器無法讀取正確的位。Nvidia 選擇使用 Amphenol 的 Ultrapass Paladin

每個 Blackwell GPU 都連接到 Amphenol Paladin HD 224G/s 連接器,每個連接器有 72 個差分對。然後,該連接器連接到背板 Paladin 連接器。接下來,它將使用 SkewClear EXD Gen 2 電纜連接到 NVSwitch 托盤 Paladin HD 連接器,每個連接器有 144 個差分對。從 NVSwitch Paladin 連接器到 NVSwitch ASIC 芯片,需要 OverPass 跨接電纜,因爲每個交換機托盤有 4 個 144 DP 連接器(576 DP),在如此小的區域中進行 PCB 走線會產生太多串擾。此外,PCB 上的損耗比跨接電纜上的損耗更嚴重。

使用 NVL36x2,每個系統將需要額外的 162 條 1.6T 雙端口水平 ACC 電纜,這些電纜對於連接機架 A 和機架 B 之間的 NVSwitch 托盤來說非常昂貴。我們在這裏分析了 ACC 電纜和芯片市場。有多個參與者佔有相當大的份額。此外,OSFP 籠還需要額外的 324 條 DensiLink 跨接電纜。僅這些 DensiLink 跨接電纜就需要每臺 NVL36x2 增加 10,000 多美元的成本。

此外,需要兩倍的 NVSwitch5 ASIC 來實現機架 A 和機架 B 之間的連接。這將使 NVLink 銅纜總成本比 NVL72 增加一倍以上。

儘管 NVL36x2 的 NVLink 背板內容比 NVL72 貴兩倍多,但大多數客戶仍會選擇 NVL36x2 設計,因爲功率和冷卻限制。需要明確的是,雖然價格非常昂貴,但 NVL36x2 和 NVL72 的銅成本都低於投資者群體的預期。

真正的贏家是供應鏈中的電纜供應商和活躍的銅芯片供應商,由於 NVL36x2 的普及,他們的前沿 1.6T 銷量大幅增加。

GB200 NVL576

正如 Jensen 在臺上提到的,GB200 NVLink 可以同時連接 576 個 Blackwell GPU。我們認爲這是使用具有 18 個平面的 2 層胖樹拓撲實現的。這類似於他們爲 DGX H100 NVL256 連接 16 個 NVL36 機架所計劃的。它將使用位於計算機架中的 288 個 L1 NVSwitch5 ASIC(144 個 1U 交換機托盤),如 NVL36x2,並且它將使用位於專用 NV Switch 托盤上的 144 個 L2 NVSwitch ASIC(72 個 2U 交換機托盤)。與 NVL36x2 一樣,GPU 和 L1 NVSwitch 之間的連接將使用相同的銅背板,因爲它距離很短。

不幸的是,L1 NVSwitch 和 L2 NVSwitch 之間的距離大於銅線所能達到的距離;因此必須使用光纖連接。此外,L2 NVSwitch 使用 Flyover 電纜連接到機箱正面的 OSFP 籠。NVL576 的額外 BOM 成本高達天文數字,超過 560 萬美元(每 GPU 9.7 萬美元),Nvidia 需要向其供應商支付這筆費用。

如果毛利率一律爲 75%,則意味着客戶需要爲 NVL576 銅 + 光纖連接每 GPU 額外支付 38.8k。雖然 Nvidia 可以削減利潤,即使是橫向擴展 NVLink 解決方案的利潤率爲 0%,但這基本上是站不住腳的。這也是 DGX H100 NVL256 從未出貨的原因,因爲收發器的成本太高。對於加速器互連來說,光纖太貴了,因爲加速器互連需要極高的帶寬。

後端網絡

GB200 的後端網絡是大多數選項出現的地方。Nvidia 通常會發布配備新一代 NIC 和 Switch 的 GPU,但由於 Nvidia 的時間表很緊迫,尤其是 224G SerDes,這一代的新網絡是在 Blackwell 一代的一半時推出的。因此,GB200 的所有初始出貨量都將使用與大多數 H100 服務器中出貨的相同的 ConnectX-7。

對於後端網絡,客戶將使用多種不同類型的交換機,具體取決於他們使用的 NIC。

Quantum-2 QM9700 Infiniband NDR

Quantum-X800 QM3400 Infiniband XDR

Quantum-X800 QM3200 Infiniband NDR/XDR

Spectrum-X SN5600

Spectrum-X Ultra

博通戰斧5

博通戰斧 6

在後端網絡方面,上市時間將全部出貨 QM9700 Quantum-2 交換機或 Broadcom Tomahawk 5,就像 H100 一代一樣。儘管是相同的後端網絡硬件,但利用軌道優化設計仍存在巨大挑戰。這是由於交換機之間的端口與機架上的端口數量不匹配。使用 NVL72,每個計算托盤有 4 個 GPU,這意味着在 4 軌道優化設計中,每個 Quantum-2 交換機應該有 18 個下行鏈路端口。

由於每個交換機在胖樹中具有相同數量的上行鏈路端口,這意味着 64 個端口中只有 36 個會被使用。實際上,每個交換機將有許多空閒端口。如果每個交換機有 2 個軌道,那麼端口數量將達到 72 個,這將超過 QM9700 Quantum-2 交換機提供的數量。爲了利用每個 Quantum-2 交換機中的所有端口,每 4 個 NVL72 機架將有 9 個非軌道優化葉交換機。

對於 ConnectX-7,您還可以使用 Q3200 Quantum-3 交換機托盤,其中包含 2 個獨立交換機,每個交換機有 36 個 400Gb/s 端口。這沒有端口不匹配,並且可以使用 4 軌優化,每個 NVL72 有 4 個 Q3200 Quantum-X800 交換機。

對於升級後的 800Gb/s ConnectX-8,將於 2025 年第二季度開始配備 Quantum-X800 Q3400,該設備具有 144 個 800Gb/s 端口,分佈在 72 個雙端口 OSFP 端口上。由於沒有端口不匹配,大多數客戶將選擇 Nvidia 推薦的 4 軌優化設計,交換機機架爲機架末端 (EoR)。

有了 CX-8,您還可以使用 Spectrum-X Ultra 800G,從而放棄上一代產品所需的昂貴且昂貴的 Bluefield 選項。我們在此討論 Quantum-X800 交換機選項以及它將如何影響光收發器市場。基於 Broadcom 的 Tomahawk 6 部署變體也將於明年下半年上市。

從 CX-7 到 CX-8 的過渡將成爲從 400G(4x100G)SR4 光收發器轉向 800G(4x200G)DR4 光收發器的主要推動力。使用 GB200 NVL72 上的 CX-7,每個 GPU 具有 400G 帶寬,並連接到一個 OSFP 籠,該籠具有多模400G 單端口 SR4 收發器,該收發器具有四個光通道,每個光通道由多模 100G VCSEL 供電。對於基於 CX-7 的網絡,交換機端通常採用 800G 雙端口 SR8 或 DR8 收發器。

對於 CX-8,所有速度都翻倍,每個 GPU 800G(4x200G)DR4,交換機端每個 OSFP 籠 1.6T(8x200G)DR8。由於 200G 多模 VCSEL 的開發工作還需要 9 到 18 個月才能完成 1.6T 的開發,因此業界轉而轉向單模 200G EML。

與 DGX H100 類似,Cedar-8 的可用方式是,每個 Bianca 板上的兩個 CX-8 NIC IC 都放入單個 OSFP224 籠中。 需要兩個 1.6T(8x200G 通道)雙端口收發器而不是四個 800G(4x200G 通道)單端口收發器的優勢。由於單端口 4x200G 收發器比 8x200G 雙端口收發器便宜約 35%,因此使用 Cedar-8 代替兩個 4x200G 收發器,成本將降低 30%。由於計算托盤上單個 OSFP 籠中 2 倍帶寬的散熱挑戰,我們預計大多數公司不會使用 Cedar-8。

大多數公司在發佈時仍會堅持使用 ConnectX-7/ConnectX-8。即使是谷歌等過去一直使用英特爾等公司定製後端 NIC 的公司,也將改回 Nvidia ConnectX-8 NIC。

唯一例外是亞馬遜,它將集成自己的後端 NIC。我們相信他們將使用其定製的後端 400G(4x100G)NIC。此網卡將不同於其標準 Nitro NIC,因爲它主要面向性能。

爲了在 Bianca 板上使用自定義後端 NIC,而不是在夾層板上使用 ConnectX IC,他們將需要使用一個適配器夾層板,該夾層板將鏡像夾層連接器分成 8 個 MCIO PCIe 連接器,連接到機箱的前部。

由於沒有 ConnectX-7/8 或 Bluefield-3(它們都具有集成 PCIe 交換機),因此需要 Broadcom/Astera Labs 的專用 PCIe 交換機將後端 NIC 連接到 CPU 和 GPU。在SemiAnalysis GB200 組件和供應鏈模型中,我們細分了 PCIe 交換機供應商、數量和 ASP。仍有超大規模定製設計,其中包括用於 CPU 和 NIC 之間的 PCIe 交換機。Nvidia 的 Miranda 設計在 PCIe 通道處理方面也與 GB200 有很大不同。此外,Amazon Trainium 2 部署有大量 Astera Labs 重定時器。

使用定製 NIC 會給公司帶來額外的工程工作,因爲他們無法使用默認的水冷塊,該水冷塊也專門用於冷卻 ConnectX IC。他們還需要運行新的熱模擬,以確保機箱前部的定製 NIC 具有足夠的冷卻能力,不會導致過熱問題。此外,他們將無法使用 NVL72 中使用的 1U 計算托盤版本。

他們只能選擇 2U NVL36 版本,該版本在托盤前端具有足夠的空氣冷卻能力。所有這些額外的工程工作將延遲亞馬遜和其他任何試圖使用自定義後端 NIC 的人的上市時間。這些挑戰是谷歌選擇使用 ConnectX-8 而不是繼續在其 GB200 服務器上使用英特爾 IPU 的原因。

前端網絡

在參考設計中,每個計算托盤有兩個 400Gb/s Bluefield-3。由於每個計算托盤有 4 個 GPU,這意味着每個 GPU 獲得 200Gb/s 的前端帶寬。目前部署的最先進的 HGX H100 服務器有一個 200-400Gb/s ConnectX-7 NIC 用於其前端流量。這是 8 個 GPU,意味着每個 GPU 25-50Gb/s。每個 GPU 200Gb/s 的前端帶寬是一個極端的數量,大多數客戶不會選擇這個額外的成本。一般來說,Nvidia 參考設計爲絕對最壞的情況過度配置,以便他們向您出售更多內容。

我們認爲,唯一將使用 Bluefield-3 作爲前端 NIC 的主要客戶將是 Oracle。他們運行需要前端網絡虛擬化的雲服務,但與其他超大規模企業不同,他們部署了自定義 NIC 解決方案。亞馬遜、谷歌和微軟都擁有自定義前端 NIC,這些 NIC 已存在於其所有通用 CPU 服務器和加速計算服務器中。他們打算繼續使用這些解決方案,因爲它們具有巨大的 TCO 優勢,並且已經垂直集成到他們的網絡/雲軟件堆棧中。

諷刺的是,唯一一家在 AI 集群中廣泛使用 Bluefield-3 的公司(xAI)甚至沒有將其用於其預期的 DPU 用途。xAI 在 NIC 模式下使用 Bluefield-3,而不是 DPU 模式,因爲第一代 Nvidia Spectrum-X 以太網需要 Bluefield-3 作爲後端 NIC 的臨時解決方案。Spectrum-X800 Ultra 將與 CX-8 後端 NIC 配合使用,並且不需要 Bluefield-3/4 即可正常運行。

網絡電纜 + 收發器物料清單

下面,我們計算了 Nvidia 向其合同製造商支付的物料清單成本。我們將僅計算計算/NVSwitch 托盤端收發器的成本,因爲如果包括交換機,計算會變得複雜,因爲集群可以是第 2 層或第 3 層,甚至在巨型集群中可以是第 4 層。

您可以看到,使用 ConnectX-8,通過使用帶有 DAC/ACC 銅線的機架頂部設計,而不是 4 軌優化的後端設計;僅後端網絡就節省了約 32,000 美元。不幸的是,由於計算機架的嚴格功率要求,我們認爲大多數人必須將後端交換機放在不同的服務機架中,並使用光學器件將它們連接起來。

對於帶外管理,這些都是廉價的銅 RJ45 電纜,每根成本不到一美元,用於從計算/交換機托盤連接到機架頂部的帶外管理交換機。如上所述,參考設計對於它們擁有的前端 NIC 和帶寬來說有點過頭了。我們相信大多數公司將擁有 200G 的前端帶寬,而不是擁有 2 個 BF-3,即每個計算托盤總共 800Gb/s 的帶寬。僅收發器成本一項,每個系統就能節省 3.5 萬美元。

在光學和 DSP 方面,Nvidia 正在大力擴展供應鏈,從僅佔絕大多數的 Fabrinet 和 Innolight 擴展到 Eoptolink。Eoptolink 專注於 800G LPO 和 1.6T DSP。

DSP 領域也發生了巨大變化。上一代 Marvell 憑藉 H100 佔據了 Nvidia 的 100% 份額。這一代,Broadcom 大舉進軍。我們看到 Innolight 和 Eoptolink 都希望在 DSP 中大量增加 Broadcom。

此外,Nvidia 還聘請了多位 DSP 工程師,並推出了 1.6T DSP。我們認爲這不會在短期內實現量產,但如果實現量產,那麼將用於 Fabrinet 收發器。內部 DSP 量產的最大挑戰在於 Nvidia 在 DSP 的每一側主要使用了相同的長距離高功率 SerDes。通常,DSP 在光學面和 NIC/Switch 面的 SerDes 優化方式不同。這兩組 SerDes 都針對功率進行了優化,而不僅僅是針對量產範圍,這是 Nvidia 在設計 224G SerDes 時的主要優化點。Nvidia 的內部 DSP 耗電量過大,因此由於 1.6T 收發器已經很熱,冷卻問題嚴重,因此其內部 DSP 很難量產。如果需要,Nvidia 的 DSP 還可以用作重定時器,但 ACC 就足夠了。

參考鏈接

點這裏 加關注,鎖定更多原創內容

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論