share_log

深度解读黄仁勋GTC演讲:全方位“为推理优化”,“买越多、省越多”,英伟达才是最便宜!

深度解讀黃仁勳GTC演講:全方位「爲推理優化」,「買越多、省越多」,英偉達才是最便宜!

華爾街見聞 ·  03/19 05:41

Semianalysis表示,在GTC2025大會上,英偉達推出的推理Token擴展、推理堆棧與Dynamo技術、共封裝光學(CPO)技術等創新將顯著降低AI總擁有成本,使得高效推理系統的部署成本大幅下降,並鞏固了英偉達在全球AI生態系統中的領先地位。

當地時間3月18日週二, $英偉達(NVDA.US)$ CEO黃仁勳在加州聖何塞舉行的英偉達AI盛會GTC 2025上發表主題演講。美國知名半導體諮詢機構Semianalysis深度解讀黃仁勳GTC演講,詳細闡述英偉達在推動AI推理性能提升方面的最新進展。

市場擔心的是,DeepSeek式的軟體優化以及英偉達主導的硬件進步帶來的巨大成本節省,可能導致對AI硬件的需求下降。然而,價格會影響需求,當AI成本降低時,AI能力的邊界不斷被突破,而需求隨之增加。

隨着英偉達在硬件和軟體方面的推理效率提升,使得模型推理和智能代理的部署成本大幅降低,從而實現成本效益的擴散效應,實際的消費量反而會增加,正如英偉達的口號所說的那樣:「買越多、省越多」。

以下爲文章的核心觀點:

推理Token擴展:預訓練、後訓練與推理時擴展定律協同作用,使得AI模型能力不斷提升。

黃仁勳數學規則:包括FLOPs稀疏率、雙向帶寬計量,以及以封裝中GPU芯片數量計算GPU數量的新規則。

GPU與系統路線圖:介紹了Blackwell Ultra B300、Rubin及Rubin Ultra的關鍵規格與性能改進,強調了新一代產品在性能、內存和網絡互連上的突破。

推出的推理堆棧與Dynamo技術:通過智能路由器、GPU規劃器、改進的NCCL、NIXL和NVMe KVCache卸載管理器等新功能,極大提升了推理吞吐量和效率。

共封裝光學(CPO)技術:詳述了CPO在降低功耗、提高交換機基數和網絡扁平化方面的優勢,以及其在未來規模化網絡部署中的潛力。

文章指出,這些創新將顯著降低AI總擁有成本,使得高效推理系統的部署成本大幅下降,並鞏固了英偉達在全球AI生態系統中的領先地位。

Semianalysis深度解讀全文爲AI翻譯

推理 Token 爆炸

人工智能模型的進步加速迅猛,在過去六個月裏,模型的提升超過了此前六個月的進展。這一趨勢將持續下去,因爲三條擴展定律——預訓練擴展、後訓練擴展和推理時擴展——正協同作用,共同推動這一進程。

今年的GTC(GPU技術大會)將聚焦於應對新的擴展範式。

來源:英偉達
來源:英偉達

Claude 3.7在軟體工程領域展現了驚人的性能。Deepseek v3顯示出上一代模型的成本正在急劇下降,這將進一步推動其應用普及。OpenAI的o1和o3模型證明,延長推理時間和搜索功能意味着答案質量大幅提升。正如預訓練定律早期所展示的那樣,後訓練階段增加計算資源沒有上限。今年,Nvidia正致力於大幅提升推理成本效率,目標是實現35倍的推理成本改善,從而支持模型的訓練和部署。

去年市場的口號是「買得越多,省得越多」,但今年的口號變成了「省得越多,買得越多」。Nvidia在硬件和軟體方面的推理效率提升,使得模型推理和智能代理的部署成本大幅降低,從而實現成本效益的擴散效應,這正是傑文斯悖論的經典體現。

市場擔心的是,DeepSeek式的軟體優化以及Nvidia主導的硬件進步帶來的巨大成本節省,可能導致對AI硬件的需求下降,市場可能出現Token供過於求的情況。價格會影響需求,當AI成本降低時,AI能力的邊界不斷被突破,而需求隨之增加。如今,AI的能力受限於推理成本,隨着成本下降,實際的消費量反而會增加。

對Token通縮的擔憂類似於討論光纖互聯網每個數據包連接成本下降時,卻忽略了網站和互聯網應用對我們生活、社會和經濟的最終影響。關鍵區別在於,帶寬存在上限,而隨着能力的顯著提升和成本的下降,對AI的需求則可以無限增長。

Nvidia提供的數據支持了傑文斯悖論的觀點。現有模型的Token數超過100萬億,而一個推理模型的Token量是其20倍,計算量則高出150倍。

來源:英偉達
來源:英偉達

測試時的計算需要數十萬Token/查詢,每月有數億次查詢。後訓練擴展階段,即模型「上學」,每個模型需要處理數萬億Token,同時需要數十萬後訓練模型。此外,具備代理能力的AI意味着多個模型將協同工作,解決越來越複雜的問題。

黃仁勳數學每年都在變化

每年,黃仁勳都會推出新的數學規則。今年的情況更爲複雜,我們觀察到第三條新的黃仁勳數學規則。

第一條規則是,Nvidia公佈的FLOPs數據以2:4稀疏度(實際上無人使用)計,而真實性能指標是密集FLOPs——也就是說,H100在FP16下被報爲989.4 TFLOPs,實際密集性能約爲1979.81 TFLOPs。

第二條規則是,帶寬應以雙向帶寬來計量。NVLink5的帶寬被報爲1.8TB/s,因爲它的發送帶寬爲900GB/s,加上接收帶寬900GB/s。儘管這些數據在規格書中相加,但在網絡領域,標準是以單向帶寬計量。

現在,第三條黃仁勳數學規則出現了:GPU數量將按照封裝中GPU芯片的數量計,而非封裝數量。從Rubin系列開始,這一命名方式將被採用。第一代Vera Rubin機架將被稱爲NVL144,即使其系統架構與GB200 NVL72類似,只不過採用了相同的Oberon機架和72個GPU封裝。這種新的計數方式雖然讓人費解,但我們只能在黃仁勳的世界中接受這一變化。

現在,讓我們來回顧一下路線圖。

GPU和系統路線圖

來源:英偉達
來源:英偉達

Blackwell Ultra B300

來源:英偉達
來源:英偉達

Blackwell Ultra 300已預覽過,細節與去年聖誕節時我們分享的基本一致。主要規格如下:GB300不會以單板形式出售,而是作爲B300 GPU出現在一個便攜式SXM模塊上,同時搭載Grace CPU,也以便攜式BGA形式出現。在性能上,B300相對於B200在FP4 FLOPs密度上提升超過50%。內存容量升級到每個封裝288GB(8個12-Hi HBM3E堆疊),但帶寬維持在8 TB/s不變。實現這一目標的關鍵在於減少了許多(但不是全部)FP64運算單元,並將其替換爲FP4和FP6運算單元。雙精度工作負載主要用於HPC和超級計算,而非AI。雖然這讓HPC群體感到失望,但Nvidia正轉向強調更重要的AI市場。

B300 HGX版本現在稱爲B300 NVL16。這將採用之前稱爲「B300A」的單GPU版本,現在簡稱「B300」。由於單個B300沒有高速D2D接口連接兩個GPU芯片,可能存在更多通信間接費用。

B300 NVL16將取代B200 HGX形態,採用16個封裝和GPU芯片在一塊基板上。爲實現這一點,每個SXM模塊上放置2個單芯片封裝,共8個SXM模塊。尚不清楚Nvidia爲何不繼續採用8×雙芯B300,而選擇這種方式,我們懷疑這是爲了從更小的CoWoS模塊和封裝基板中提高產量。值得注意的是,該封裝技術將採用CoWoS-L而非CoWoS-S,這一決策意義重大。CoWoS-S的成熟度和產能是單芯B300A的原因,而這一轉變表明CoWoS-L已迅速成熟,其產率相比起初的低迷已有所穩定。

這16個GPU將通過NVLink協議通信,與B200 HGX類似,兩塊NVSwitch 5.0 ASIC將位於SXM模塊的兩個陣列之間。

新細節是,與以往的HGX不同,B300 NVL16將不再採用$Astera Labs(ALAB.US)$的重定時器。不過,一些超大規模雲服務提供商可能會選擇加入PCIe交換機。我們曾在今年早些時候向Core Research訂閱者透露過這一消息。

另一個重要細節是,B300將引入CX-8 NIC,該網卡提供4個200G的通道,總吞吐量達到800G,爲InfiniBand提供新一代網絡速度,這比現有的CX-7 NIC提升一倍。

Rubin技術規格

來源:英偉達
來源:英偉達
來源:Semianalysis
來源:Semianalysis

Rubin將採用$台積電(TSM.US)$3nm工藝,擁有兩個reticle-size計算芯片,左右各配備兩個I/O Tile,內置所有NVLink、PCIe以及NVLink C2C IP,以釋放主芯片上更多用於計算的空間。

Rubin提供令人難以置信的50 PFLOPs密集FP4計算性能,比B300的代際性能增長超過三倍。Nvidia如何實現這一點?他們通過以下幾個關鍵向量進行擴展:

1、如上所述,I/O芯片釋放的面積可能增加20%-30%,可用於更多的流處理器和張量核。

2、Rubin將採用3nm工藝,可能使用定製的Nvidia 3NP或標準N3P。從3NP到4NP的轉變大幅提升了邏輯密度,但SRAM幾乎沒有縮減。

3、Rubin將具有更高的TDP——我們估計約爲1800W,這甚至可能推動更高的時鐘頻率。

4、結構上,Nvidia逐代擴大的張量核systolic array將進一步擴大:從Hopper的32×32到Blackwell的64×64,Rubin可能擴展至128×128。更大的systolic array提供了更好的數據複用和較低的控制複雜度,同時在面積和功耗上更高效。儘管編程難度增加,但Nvidia憑藉內置冗餘和修復機制實現了極高的參數良率,這使得即使個別計算單元失效,整體性能仍能得到保障。這與TPU不同,後者的超大張量核沒有相同的容錯能力。

來源:Semianalysis
來源:Semianalysis

Rubin將繼續使用Oberon機架架構,如同GB200/300 NVL72,並配備Vera CPU——Grace的3nm繼任者。需要注意的是,Vera CPU將採用Nvidia全定製核心,而Grace則嚴重依賴Arm的Neoverse CSS核心。Nvidia還開發了一套定製互連繫統,使得單個CPU核心能訪問更多內存帶寬,這一點是AMD和Intel難以匹敵的。

這就是新命名方式的由來。新機架將命名爲VR200 NVL144,儘管系統架構與之前的GB200 NVL72類似,但由於每個封裝含有2個計算芯片,總計144個計算芯片(72個封裝×2個計算芯片/封裝),Nvidia正在改變我們統計GPU數量的方式!

至於AMD,其市場營銷團隊需要注意,AMD在宣稱MI300X家族可以擴展到64個GPU的規模上存在遺漏(每系統8個封裝×每封裝8個XCD芯片組),這是一個關鍵的市場機遇。

HBM與互連

Nvidia的HBM容量將一代比一代保持在288GB,但升級爲HBM4:8個堆疊,每個12-Hi,層密度保持24GB/層。HBM4的應用使得總帶寬得以提升,13TB/s的總帶寬主要得益於總線寬度翻倍至2048位,針腳速度爲6.5Gbps,符合JEDEC標準。

來源:Semianalysis
來源:Semianalysis

NVLink第六代的速度翻倍至3.6TB/s(雙向),這來自於通道數量翻倍,Nvidia仍採用224G SerDes。

回到Oberon機架,背板依然採用銅背板,但我們認爲其電纜數量也相應增加,以適應每個GPU通道數量的翻倍。

NVSwitch方面,新一代NVSwitch ASIC也將通過通道數量翻倍來實現總帶寬的翻倍,這將進一步提高交換機的性能。

Rubin Ultra規格

來源:英偉達
來源:英偉達

Rubin Ultra是性能大幅提升的階段。Nvidia將直接在一個封裝中使用16個HBM堆疊,從8個增加至16個。整個機架將由4個掩模尺寸GPU組成,中間配有2個I/O芯片。計算區域翻倍,計算性能也翻倍至100 PFLOPs密集FP4性能。HBM容量增加到1024GB,超過普通Rubin的3.5倍。採用雙堆疊設計,同時密度和層數也提高。爲達到1TB內存,封裝中將有16個HBM4E堆疊,每個堆疊有16層32Gb DRAM核心芯片。

我們認爲,這種封裝將拆分爲兩個互連器放置在基板上,以避免使用一個超大互連器(幾乎8倍於掩模大小)。中間的2個GPU芯片將通過薄型I/O芯片進行互聯,通信通過基板實現。這需要一個超大ABF基板,其尺寸超出當前JEDEC封裝尺寸限制(寬度和高度均爲120mm)。

該系統擁有總計365TB的高速存儲,每個Vera CPU擁有1.2TB LPDDR,共計86TB(72個CPU),這爲每個GPU封裝留下約2TB的LPDDR,作爲額外的二級內存。這是對定製HBM基芯功能的實現。LPDDR內存控制器集成在基芯上,爲額外的二級內存服務,該內存位於板上LPCAMM模塊上,與Vera CPU所帶的二級內存協同工作。

來源:Semianalysis
來源:Semianalysis

這也是我們將看到Kyber機架架構推出的時候。

Kyber機架架構

Kyber機架架構的關鍵新特性在於,Nvidia通過將機架旋轉90度來提高密度。對於NVL576(144個GPU封裝)的配置,這是大規模擴展網絡規模的又一重大提升。

來源:英偉達
來源:英偉達

讓我們來看一下Oberon機架與Kyber機架的關鍵區別:

來源:Semianalysis
來源:Semianalysis

·計算托盤旋轉90度,形成類似於卡盒的形態,從而實現更高的機架密度。

·每個機架由4個筒倉組成,每個筒倉包括兩層18個計算卡。

對於NVL576,每個計算卡中包含一個R300 GPU和一個Vera CPU。

每個筒倉總共有36個R300 GPU和36個Vera CPU。

這使得NVLink的世界規模達到144個GPU(576個芯片)。

·PCB背板取代了銅線背板,作爲GPU與NVSwitch之間擴展鏈接的關鍵部件。

這一轉變主要是由於在較小的佔地面積內難以佈置電纜。

來源:英偉達
來源:英偉達

有跡象表明,供應鏈中出現了VR300 NVL1,152(288個GPU封裝)的Kyber機架變體。如果按照GTC主題演講中提到的晶圓數計算,您將看到紅色標註的288個GPU封裝。我們認爲這可能是未來的一款SKU,其機架密度和NVLink世界規模將從展示的NVL576(144個封裝)翻倍至NVL1,152(288個封裝)。

此外,還有一款全新NVSwitch第七代,這一點值得注意。這是第一次引入中平台的NVSwitch,使得交換機總帶寬和基數都有所提升,可擴展到單一域內576個GPU芯片(144個封裝),不過拓撲結構可能不再是全互聯的單級多平面結構,而可能轉爲具有過度訂閱的兩級多平面網絡拓撲,或甚至採用非Clos拓撲。

Blackwell Ultra改進的指數級硬件單元

各種注意力機制(如flash-attention、MLA、MQA和GQA)都需要矩陣乘法(GEMM)和SOFTMAX函數(行歸約和元素級指數運算)。

在GPU中,GEMM運算主要由張量核執行。雖然每代張量核性能不斷提升,但負責softmax計算的多功能單元(MUFU)提升幅度較小。

在bf16(bfloat16)Hopper中,計算注意力層的softmax需要佔用GEMM週期的50%。這要求內核工程師通過重疊計算來「隱藏」softmax的延遲,這使得編寫內核變得異常困難。

來源: Tri Dao @ CUDA Mode Hackathon 2024
來源: Tri Dao @ CUDA Mode Hackathon 2024

在FP8(浮點數8位)的Hopper中,注意力層的softmax計算所需週期與GEMM相同。如果沒有任何重疊,注意力層的計算時間將翻倍,大約需要1536個週期來計算矩陣乘法,再加1536個週期來計算softmax。這就是重疊技術提高吞吐量的關鍵所在。由於softmax和GEMM所需週期相同,工程師需要設計出完美重疊的內核,但現實中很難達到這一理想狀態,根據阿姆達爾定律,完美重疊難以實現,硬件性能因此受損。

在Hopper GPU世界中,這一挑戰尤爲明顯,第一代Blackwell也面臨類似問題。Nvidia通過Blackwell Ultra解決了這一問題,在重新設計SM(流多處理器)並增加新的指令後,使MUFU計算softmax部分的速度提升了2.5倍。這將減輕對完美重疊計算的依賴,使得CUDA開發者在編寫注意力內核時有更大的容錯空間。

來源: Tri Dao @ CUDA Mode Hackathon 2024
來源: Tri Dao @ CUDA Mode Hackathon 2024

這正是Nvidia新的推理堆棧和Dynamo技術大顯身手的地方。

推理堆棧與Dynamo

在去年的GTC上,Nvidia討論了GB200 NVL72的大規模GPU擴展如何使推理吞吐量較H200在FP8下提升15倍。

來源:英偉達
來源:英偉達

Nvidia並未放緩步伐,而是在硬件和軟體領域同時加速推理吞吐量的提升。

Blackwell Ultra GB300 NVL72較GB200 NVL72在FP4密集性能上提升50%,同時HBM容量也提升50%,這兩項均將提高推理吞吐量。路線圖中還包括Rubin系列中網絡速度的多項升級,這也將顯著提升推理性能。

下一步硬件在推理吞吐量方面的躍升將來自Rubin Ultra中擴展的網絡規模,其規模將從Rubin中的144個GPU芯片(或封裝)擴展到576個GPU芯片,這只是硬件改進的一部分。

在軟體方面,Nvidia推出了Nvidia Dynamo——一個開放的AI引擎堆棧,旨在簡化推理部署和擴展。Dynamo有潛力顛覆現有的VLLM和SGLang,提供更多功能且性能更高。結合硬件創新,Dynamo將使推理吞吐量和交互性之間的曲線進一步右移,尤其是爲需要更高交互性的應用場景提供改進。

來源:英偉達
來源:英偉達

Dynamo引入了多個關鍵新功能:

·Smart Router:智能路由器能在多GPU推理部署中合理分配每個Token,確保在預加載和解碼階段均衡負載,避免瓶頸。

·GPU Planner:GPU規劃器可以自動調整預加載和解碼節點,依據日內需求波動動態增加或重新分配GPU資源,進一步實現負載均衡。

·改進的NCCL Collective for Inference:Nvidia Collective Communications Library(NCCL)的新算法使得小消息傳輸延遲降低4倍,從而顯著提高推理吞吐量。

·NIXL(NVIDIA Inference Transfer Engine):NIXL利用InfiniBand GPU-Async Initialized(IBGDA)技術,將控制流和數據流均直接從GPU傳輸到NIC,無需通過CPU,極大降低延遲。

·NVMe KV-Cache Offload Manager:該模塊允許將KV Cache離線存儲到NVMe設備,避免在多輪對話中重複計算,從而加速響應並釋放預加載節點容量。

智能路由器

智能路由器能在多GPU推理部署中智能地將每個token同時路由到預加載(prefill)和解碼(decode)GPU上。在預加載階段,確保傳入的tokens均勻分配到各個負責預加載的GPU上,從而避免某個expet參數模塊因流量過載而形成瓶頸。

同樣,在解碼階段,確保序列長度和請求在負責解碼的各GPU之間得到合理分配和平衡也十分關鍵。對於那些處理量較大的expet參數模塊,GPU規劃器(GPU Planner)還可將其複製,以進一步維持負載平衡。

此外,智能路由器還能在所有模型副本之間實現負載均衡,這一點是vLLM等許多推理引擎所不具備的優勢。

來源:英偉達
來源:英偉達

GPU規劃器

GPU規劃器是預加載和解碼節點的自動擴展器,可根據一天內需求的自然波動啓動額外節點。它能夠在基於專家模型(MoE)的多個expet參數模塊之間實施一定程度的負載均衡,無論是在預加載還是在解碼階段。GPU規劃器會啓動額外的GPU,爲高負載expet參數模塊提供更多計算能力,並可根據需要在預加載和解碼節點之間動態重新分配資源,從而最大化資源利用率。

此外,它還支持調整用於解碼和預加載的GPU比例——這對像Deep Research這樣的應用尤爲重要,因爲這類應用需要預加載大量上下文信息,而實際生成的內容卻相對較少。

來源:英偉達
來源:英偉達

改進的NCCL集體通信

Nvidia Collective Communications Library (NCCL)中新增的一組低延遲通信算法,可以將小消息傳輸的延遲降低4倍,從而大幅提升整體推理吞吐量。

在今年的GTC上,Sylvain在演講中詳細介紹了這些改進,重點闡述了單次和雙次全歸約(all-reduce)算法如何實現這一效果。

由於AMD的RCCL庫實際上是Nvidia NCCL的複製版本,Sylvain對NCCL的重構將持續擴大CUDA的護城河,同時迫使AMD在同步Nvidia重大重構成果上耗費大量工程資源,而Nvidia則可以利用這些時間繼續推進集體通信軟體堆棧和算法的前沿發展。

來源:英偉達
來源:英偉達

NIXL —— Nvidia推理傳輸引擎

爲了在預加載節點和解碼節點之間實現數據傳輸,需要低延遲、高帶寬的通信傳輸庫。NIXL採用InfiniBand GPU-Async Initialized (IBGDA)技術。

目前在NCCL中,控制流經過CPU代理線程,而數據流則直接傳輸到網卡,無需經過CPU緩衝。而使用IBGDA後,控制流與數據流均可直接從GPU傳輸到網卡,無需CPU中轉,從而大幅降低延遲。

此外,NIXL還能將在CXL、本地NVMe、遠程NVMe、CPU內存、遠程GPU內存及GPU之間傳輸數據的複雜性進行抽象,簡化數據移動流程。

來源:英偉達
來源:英偉達

NVMe KVCache卸載管理器

KVCache卸載管理器通過將之前用戶對話中生成的KV緩存存儲到NVMe設備中,而非直接丟棄,來提高預加載階段整體效率。

來源:英偉達
來源:英偉達

在用戶與大型語言模型(LLM)進行多輪對話時,模型需要將前期問答作爲輸入token納入考量。傳統上,推理系統會丟棄用於生成這些問答的KV緩存,導致必須重新計算,從而重複同樣的計算過程。

而採用NVMe KVCache卸載後,當用戶暫時離開時,KV緩存會被卸載到NVMe存儲中;當用戶重新提問時,系統可以迅速從NVMe中檢索KV緩存,免去了重新計算的開銷。

這不僅釋放了預加載節點的計算能力,使其能夠處理更多的輸入流量,同時還改善了用戶體驗,顯著縮短了從開始對話到接收到第一個token的時間。

來源:英偉達
來源:英偉達

根據DeepSeek在開源周第6天的GitHub說明,研究人員披露其磁盤KV緩存命中率爲56.3%,表明在多輪對話中典型的KV緩存命中率可達到50%-60%,這對預加載部署效率提升起到了顯著作用。雖然在對話較短時,重新計算可能比加載更便宜,但總體來看,採用NVMe存儲方案所帶來的節約成本是巨大的。

追蹤DeepSeek開源周的朋友對上述技術應該並不陌生。這些技術堪稱快速了解Nvidia Dynamo創新成果的絕佳途徑,而Nvidia也將推出更多關於Dynamo的文檔。

所有這些新特性共同實現了推理性能的大幅加速。Nvidia甚至討論過,當Dynamo部署在現有的H100節點上時,性能如何進一步提升。基本上,Dynamo使得DeepSeek的創新成果普惠整個社區,不僅限於那些擁有頂尖推理部署工程能力的AI實驗室,所有用戶都能部署高效的推理系統。

最後,由於Dynamo能夠廣泛處理分散推理和專家並行性,它特別有利於單個複製和更高交互性部署。當然,要充分發揮Dynamo的能力,必須有大量節點作爲前提,從而實現顯著的性能改進。

來源:英偉達
來源:英偉達

這些技術共同帶來了推理性能的巨大提升。Nvidia提到,當Dynamo部署在現有的H100節點上時,也能實現顯著的性能改進。換句話說,Dynamo使得整個開源推理技術的最佳成果惠及所有用戶,不僅僅是那些擁有深厚工程背景的頂級AI實驗室。這讓更多的企業能夠部署高效的推理系統,降低整體成本,提高應用的交互性和擴展性。

AI總擁有成本下降

在討論完Blackwell之後,黃仁勳強調,這些創新已使他成爲「首席收入破壞者」。他指出,Blackwell相比Hopper的性能提升達68倍,使得成本下降了87%。而Rubin預計將實現比Hopper高900倍的性能提升,成本降低99.97%。

顯然,Nvidia正以不懈的步伐推動技術進步——正如黃仁勳所言:「當Blackwell開始大規模出貨時,你甚至不可能把Hopper免費送出。」

來源:英偉達
來源:英偉達

我們早在去年10月的《AI Neocloud行動指南》中就強調,產品週期早期部署計算能力的重要性,而這正是驅動H100租賃價格從2024年中期開始加速下跌的原因。我們一直呼籲整個生態系統優先部署下一代系統,如B200和GB200 NVL72,而不是繼續採購H100或H200。

我們的AI雲總擁有成本(TCO)模型已經向客戶展示了各代芯片生產率的躍升,以及這種躍升如何推動AI Neocloud租賃價格的變化,進而影響芯片所有者的淨現值。截至目前,我們在2024年初發佈的H100租賃價格預測模型準確率達到98%。

來源: AI TCO Model
來源: AI TCO Model

CPO(共封裝光學)技術

來源:英偉達
來源:英偉達

在主題演講中,Nvidia宣佈了首個共封裝光學(CPO)解決方案,將其部署於擴展交換機中。通過CPO,收發器被外部激光源(ELS)取代,與直接放置在芯片硅片旁邊的光學引擎(OE)協同工作,實現數據通信。現在,光纖直接插入交換機上的端口,將信號路由至光學引擎,而不再依賴傳統收發器端口。

來源:英偉達
來源:英偉達

CPO的主要優勢在於顯著降低功耗。由於交換機上不再需要數字信號處理器(DSP),而且可以使用功耗更低的激光光源,因此實現了顯著的功耗節省。使用線性可插光模塊(LPO)也能取得類似效果,但CPO還允許更高的交換機基數,從而將網絡結構扁平化——使得整個集群能夠通過使用CPO實現兩層網絡,而非傳統三層網絡。這樣不僅降低了成本,也節約了功耗,這種節能效果幾乎和降低收發器功耗一樣顯著。

我們的分析顯示,對於一個400k* GB200 NVL72部署而言,從基於DSP收發器的三層網絡轉向基於CPO的兩層網絡,總集群功耗節省最高可達12%,使得收發器功耗從佔計算資源的10%降至僅1%。

來源:Semianalysis
來源:Semianalysis

Nvidia今天推出了多款基於CPO的交換機,包括$昆騰(QMCO.US)$ X-800 3400的CPO版本,該交換機去年在GTC 2024上首發,具有144個800G端口,總吞吐量達到115T,並將配備144個MPO端口和18個ELS。該交換機將於2025年下半年推出。另一款Spectrum-X交換機提供512個800G端口,同樣適用於高速、扁平化的網絡拓撲,該以太網CPO交換機計劃於2026年下半年推出。

來源:英偉達
來源:英偉達

儘管今天的發佈已經具有突破性意義,我們仍認爲Nvidia在CPO領域僅僅是熱身。長遠來看,CPO在規模化網絡中的最大貢獻在於,它能夠大幅提升GPU擴展網絡的基數和聚合帶寬,從而實現更快、更扁平的網絡拓撲,開啓遠超576 GPU的規模化世界。我們將很快發佈一篇更詳細的文章,深入探討Nvidia的CPO解決方案。

Nvidia依舊稱王,瞄準你的計算成本

今天,《信息》發佈了一篇文章,稱$亞馬遜(AMZN.US)$Trainium芯片的定價僅爲H100價格的25%。與此同時,黃仁勳宣稱:「當Blackwell開始大規模出貨時,你甚至無法將H100免費送出。」我們認爲這一說法極具分量。技術進步正在推動總體擁有成本的下降,而除了TPU之外,我們在各處都能看到Nvidia路線圖的複製品。而黃仁勳正推動技術邊界的不斷突破。新的架構、機架設計、算法改進以及CPO技術都使Nvidia與競爭對手形成鮮明對比。Nvidia在幾乎所有領域都處於領先地位,而當競爭對手追趕上來時,他們會在另一個方向繼續突破。隨着Nvidia保持一年一度的升級節奏,我們預計這一勢頭將繼續。有人談論ASIC將是計算的未來,但我們已經看到,像CPU時代那樣的平台優勢很難被超越。Nvidia正在通過GPU重新構建這種平台,我們預期他們將繼續走在前沿。

正如黃仁勳所說,「祝你好運,跟上這位首席收入破壞者的步伐。」

編輯/Rocky

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
25
評論 評論 5 · 瀏覽 12萬

評論(5)

熱點推薦

寫評論
5

聲明

本頁的譯文內容由軟件翻譯。富途將竭力但卻不能保證翻譯內容之準確和可靠,亦不會承擔因任何不準確或遺漏而引起的任何損失或損害。