share_log

英伟达25年路线图惊爆流出!老黄豪赌B100暴打AMD,秘密武器X100曝光

英偉達25年路線圖驚爆流出!老黃豪賭B100暴打AMD,祕密武器X100曝光

華爾街見聞 ·  2023/10/11 13:57

近日,外媒曝光了一份英偉達全新GPU路線圖,史上最強B100技術細節全流出,其中最神祕的X100,據悉將在2025年上市。

英偉達的AI硬件霸主,當得太久了!

現在,各大科技公司都在虎視眈眈,等着一舉顛覆它的霸主之位。

當然,英偉達也不會坐以待斃。

最近,外媒SemiAnalysis曝出了一份英偉達未來幾年的硬件路線圖,包括萬衆矚目的H200、B100和「X100」GPU。

big

隨之一同流出的,還有一些硬核信息,包括英偉達的工藝技術計劃、HBM3E的速度/容量、PCIe 6.0、PCIe 7.0、NVLink、1.6T 224G SerDes計劃。

如果這些計劃如願成功,英偉達將繼續成功碾壓對手。

當然,霸主之位也沒這麼好當——AMD的MI300、MI400,亞馬遜的Trainium2,微軟的Athena,英特爾的Gaudi 3,都不會讓英偉達好過。

準備好,前方高能來襲!

big

英偉達,不止想做硬件霸主

谷歌早已開始佈局自己的AI基礎設施,他們構建的TPUv5和TPUv5e,既可以用於內部的訓練和推理,也可以給蘋果、Anthropic、CharacterAI、MidJourney等外部客戶使用。

谷歌不是英偉達唯一的威脅。

在軟件方面,Meta的PyTorch2.0和OpenAI的Triton也在迅猛發展,使其他硬件供應商得以實現兼容。

big

現在,軟件上的差距仍然存在,但遠不及從前那麼巨大了。

在軟件堆棧上,AMD的GPU、英特爾的Gaudi、Meta的MTIA和微軟的Athena都取得了一定程度的發展。

儘管英偉達仍然保持着硬件領先地位,但差距的縮小,會越來越快。

英偉達H100,也不會獨領風騷太久。

在接下來的幾個月內,無論是AMD的MI300,還是英特爾的Gaudi 3,都將推出技術上優於H100的硬件產品。

big

而除了谷歌、AMD、英特爾這些難纏的對手,還有一些公司,也給了英偉達不小的壓力。

這些公司雖然在硬件設計上暫時落後,但能得到背後巨頭的補貼——天下苦英偉達久矣,這些公司都希望打破英偉達在HBM上的巨額利潤壟斷。

亞馬遜即將推出的Trainium2和Inferentia3, 微軟即將推出的Athena,都是已佈局多年的投資。

競爭對手來勢洶洶,英偉達當然也不會坐以待斃。

big

在外媒SemiAnalysis看來,無論管理風格還是路線決策,英偉達都是「行業中最多疑的公司之一」。

而黃仁勳身上,體現了一股安迪·格魯夫的精神。

成功導致自滿。自滿導致失敗。只有偏執狂才能生存。

爲了穩坐第一把交椅,英偉達野心勃勃,採取了多管齊下的冒險策略。

他們已經不屑於再和英特爾、AMD在傳統的市場上競爭,而是想成爲谷歌、微軟、亞馬遜、Meta、蘋果這樣的科技巨頭。

big

而英偉達的DGX Cloud、軟件,以及針對非半導體領域的收購策略,背後都是一盤大棋。

路線圖最新細節曝光!

英偉達最新路線圖的重要細節,已經被曝光。

內容包括所採用的網絡、內存、封裝和工藝節點,各種GPU、SerDes選擇、PCIe6.0、協同封裝光學器件和光路交換機等細節。

big

顯然,懾於谷歌、亞馬遜、微軟、AMD和英特爾的競爭壓力,英偉達連夜加快了B100「X100」的研發。

B100:上市時間高於一切

根據內部消息,英偉達的B100將於2024年第三季度量產,部分早期樣品將於2024年第二季度出貨。

從性能和TCO看,無論是亞馬遜的Trainium2、谷歌的TPUv5、AMD的MI300X,還是英特爾的Gaudi 3或微軟的Athena,跟它相比都弱爆了。

big

即使考慮到從設計合作方、AMD或台積電獲得的補貼,它們也統統打不過。

爲了儘快將B100推向市場,英偉達做了不少妥協。

比如,英偉達本想把功耗定在更高的水平(1000W),但最終,他們還是選擇了繼續使用H100的700W。

這樣,B100推出時,就能繼續使用風冷技術。

big

此外,在B100早期系列,英偉達也會堅持使用PCIe5.0。

5.0和700W的組合意味着,它可以直接插入現有的H100 HGX服務器中,從而大大提高供應鏈能力,更早地量產和出貨。

之所以決定堅持使用5.0,還有部分原因是,AMD和英特爾在PCIe6.0集成上還遠遠落後。而即使英偉達自己的內部團隊,也沒有準備好使用PCIe6.0CPU。

此外,他們還將使用速度更快的C2C式鏈接。

big

在以後,ConnectX-8會配備一款集成的PCIe6.0交換機,但目前還沒人準備好。

據悉,博通和AsteraLabs要到年底才能準備好量產的PCIe6.0重定時器,而考慮到這些基板的尺寸,所需的重定時器只會更多。

這也意味着,最初的B100將被限制在3.2T,使用ConnectX-7時的速度也僅僅是400G,而非英偉達在PPT上所宣稱的每個GPU 800G。

如果保持空氣冷卻,電源、PCIe和網絡速度不變,那無論是製造還是部署,都會很容易。

big

稍後,英偉達會推出一個需要水冷的1,000W+版本B100。

這一版B100將通過ConnectX-8,爲每個GPU提供完整的800G網絡連接。

對於以太網/InfiniBand,這些SerDes仍然是8x100G。

雖然每個GPU的網絡速度提高了一倍,但基數卻減半了,因爲它們仍需通過相同的51.2T交換機。而102.4T交換機,在B100一代中將不再使用。

有趣的是,有爆料稱B100上的NVLink組件將採用224G SerDes,如果英偉達真能做到這一點,無疑是巨大的進步。

大多數人業內人士都認爲,224G並不可靠,2024年不可能實現,但英偉達的人除外。

要知道,無論是谷歌、Meta,還是亞馬遜,他們的224G AI加速器量產目標都定在2026/2027年。

如果英偉達在2024/2025年就實現了這一點,鐵定會把對手們打得落花流水。

big

據悉,B100仍然是台積電的N4P,而不是基於3nm工藝的技術。

顯然,對於如此大的芯片尺寸,台積電的3nm工藝尚未成熟。

big

根據英偉達基板供應商Ibiden透露的基板尺寸,英偉達似乎已經轉而採用由2個單片大芯片MCM組成的設計,包含8或12個HBM堆疊。

SambaNova和英特爾明年的芯片,都採用了類似的宏觀設計。

big

英偉達之所以沒有像AMD那樣使用混合鍵合技術,是因爲他們需要量產,而成本就是他們的一大顧慮。

據SemiAnalysis估測,這兩款B100芯片的內存容量將與AMD的MI300X相近或更高,達到24GB堆疊。

風冷版B100的速度可達6.4Gbps,而液冷版可能高達9.2Gbps。

另外,英偉達還在路線圖中展示了GB200和B40。

GB200和GX200都使用了G,顯然這是一個佔位符,因爲英偉達將推出基於Arm架構的新CPU。並不會長期使用Grace。

B40很可能只是B100的一半,只有一個單片N4P芯片,和最多4或6層的HBM。與L40S不同,這對於小模型的推理是很有意義的。

「X100」:致命一擊

曝出的路線圖中最惹人注意的,就是英偉達的「X100」時間表了。

有趣的是,它與AMD目前的MI400時間表完全吻合。就在H100推出一年後,AMD發佈了MI300X戰略。

AMD給MI300X的封裝令人印象深刻,他們大量塞入了更多的計算和內存,希望能超越一年前的H100,從而在純硬件上超越英偉達。

big

英偉達也發現了,他們兩年一次發佈新GPU的節奏,給了競爭對手大好的機會搶奪市場。

被逼急了的英偉達,正在把產品週期加快到每年一次,不給對手任何機會。比如,他們計劃於2025年推出「X100」,僅僅比B100晚一年。

當然,「X100」目前還並未量產(不像B100),所以一切還懸而未決。

要知道,在過去,英偉達可從來不會討論下一代產品之後的產品,這次已經是史無前例了。

而且,名字大概率也不叫「X100」。

英偉達一直以來的傳統,都是以Ada Lovelace、Grace Hopper和Elizabeth Blackwell等傑出女科學家的名字來命名GPU的。

至於「X」,唯一符合邏輯的就是研究半導體和金屬帶結構的Xie Xide,但考慮到她的身份,概率應該不大。

big

供應鏈大師:老黃的豪賭

自英偉達成立之初,黃仁勳就一直在積極推動着對供應鏈的掌握,從而支持龐大的增長目標。

他們不僅願意承擔不可取消的訂單——高達111.5億美元的採購、產能和庫存承諾,並且還有38.1億美元的預付款協議。

可以說,沒有一家供應商能與之相提並論。

而英偉達的事蹟也不止一次表明,他們可以在供應短缺時創造性地增加供應量。

big

2007年黃仁勳與張忠謀的對話

1997年,張忠謀和我相遇時,只有100人的英偉達在那一年完成了2700萬美元的收入。你們可能不相信,但張忠謀以前經常打電話推銷,並且還會上門拜訪。而我則會向張忠謀解釋英偉達是做什麼的,以及我們的芯片尺寸需要多大,而且每年都會越來越大。後來,英偉達總共做了1.27億個晶圓。從那時起,英偉達每年增長近100%,直到現在。也就是在過去10年中,複合年增長率達到了70%左右。

當時,張忠謀無法相信英偉達需要如此多的晶圓,但黃仁勳堅持了下來。

英偉達通過在供應方面的大膽嘗試,取得了巨大成功。雖然時不時要減記價值數十億美元的庫存,但他們仍然從過度的訂購中獲得了正收益。

這次,英偉達直接搶佔了GPU上游組件的大部分供應——

他們向SK海力士、三星和美光這3家HBM供應商下了非常大的訂單,擠佔了除博通和Google之外其他所有人的供應。同時,還買下了台積電CoWoS的大部分供應,以及Amkor的產能。

此外,英偉達還充分利用了HGX板卡和服務器所需的下游組件,如重定時器、DSP、光學器件等。

如果供應商對英偉達要求置若罔聞,那麼就會面對老黃的「蘿蔔加大棒」——

一方面,他們會從英偉達獲得難以想象的訂單;另一方面,他們可能會被英偉達從現有的供應鏈中剔除。

當然,英偉達也只有在供應商至關重要且無法被淘汰或多元化供應的情況下,才會使用承諾和不可取消的訂單。

big

每個供應商似乎都認爲自己是AI的贏家,部分原因是因爲英偉達向所有供應商都下了大量的訂單,而他們也都認爲自己贏得了大部分業務。但實際上,只是因爲英偉達的增長速度太快了。

回到市場動態上,雖然英偉達的目標是在明年實現超過700億美元的數據中心銷售額,但只有谷歌在上游有足夠的產能——擁有超過100萬臺的設備。AMD在AI領域的總產能仍然非常有限,最高也不過幾十萬臺。

商業策略:潛在的反競爭

衆所周知,英偉達正在利用對GPU的巨大需求,來向客戶推銷和交叉銷售產品。

供應鏈中有大量信息透露,英偉達會根據一系列因素向某些公司提供優先分配。包括但不限於:多元化採購計劃、自主研發AI芯片計劃、購買英偉達的DGX、NIC、交換機和/或光學設備等。

big

事實上,英偉達的捆綁銷售非常成功。儘管之前只是一家規模很小的光纖收發器供應商,但他們的業務量在一個季度內增長了兩倍,預計明年的出貨量將超過10億美元——遠遠超過了自家GPU或網絡芯片業務的增長速度。

這些策略,可以說是相當周密。

比如,想要在英偉達的系統上實現3.2T網絡和可靠的RDMA/RoCE,唯一方法就是使用英偉達的NIC。當然,一方面也是因爲英特爾、AMD和博通的產品實在是缺乏競爭力——仍然停留在200G的水平上。

而通過對供應鏈的管理,英偉達還促使400G InfiniBand NIC的交付週期,能夠比400G以太網NIC明顯縮短。而這兩種NIC(ConnectX-7)在芯片和電路板設計上,其實是完全相同的。

其原因在於英偉達的SKU配置,而非實際的供應鏈瓶頸——迫使企業不得不購買成本更高的InfiniBand交換機,而不是標準的以太網交換機。

這還不止,看看供應鏈對L40和L40S GPU有多麼着迷,就知道英偉達又在分配上做手腳了——爲了贏得更多H100的分配,OEM廠商就需要購買更多的L40S。

這與英偉達在PC領域的操作,也是如出一轍——筆記本製造商和AIB合作伙伴必須購買更大量的G106/G107(中/低端GPU)才能獲得更稀缺、更高利潤的G102/G104(高端和旗艦GPU)。

作爲配合,供應鏈中的人也被灌輸了這樣的說法——L40S比A100更好,因爲它具有更高的FLOPS。

但實際上,這些GPU並不適合LLM推理,因爲它們的顯存帶寬還不到A100的一半,而且也沒有NVLink。

這意味着在L40S上運行LLM並實現良好的TCO幾乎是不可能的,除非是非常小的模型。而大批量的處理也會導致分配到每個用戶上的token/s幾乎是不可用的,從而使理論上的FLOPS在實際應用中變得毫無用處。

big

此外,英偉達的MGX模塊化平台,雖然省去了服務器設計的艱苦工作,但也同時降低了OEM的利潤率。

戴爾、惠普和聯想等公司顯然對MGX持抵制態度,但諸如超微、廣達、華碩、技嘉等公司則爭相填補這一空白,將低成本的「企業人工智能」商品化。

而這些參與L40S和MGX炒作的OEM/ODM,也可以從英偉達那裏獲得更好的主線GPU產品分配。

光電共封裝(Co-Packaged Optics)

在CPO方面,英偉達也是相當重視。

他們一直在研究各種解決方案,包括來自Ayar Labs的解決方案,以及他們自己從Global Foundries和台積電獲得的解決方案。

big

目前,英偉達已經考察了幾家初創公司的CPO方案,但暫時還沒有做出最終的決定。

big

分析認爲,英偉達很有可能將CPO集成到「X100」的NVSwitch上。

因爲直接集成到GPU本身可能成本太高,而且在可靠性方面也很困難。

big

光路交換機(Optical Circuit Switch)

谷歌在人工智能基礎設施方面最大的優勢之一,就是它的光路交換機。

顯然,英偉達也在追求類似的東西。目前,他們已經接觸了多家公司,希望能夠進行合作開發。

big

英偉達意識到,Fat Tree在繼續擴展方面已經走到了盡頭,因此需要另一種拓撲結構。

與谷歌選擇6D Torus不同,英偉達更傾向於採用Dragonfly結構。

big

據了解,英偉達距離OCS的出貨還遙遙無期,但他們希望在2025年時能夠更加接近這一目標,但大概率無法實現。

big

OCS + CPO是聖盃,尤其是當OCS可以實現按數據包交換時,將會直接改變遊戲規則。

不過,目前還沒有人展示過這種能力,甚至連谷歌也沒有。

雖然英偉達的OCS和CPO還只是研究部門的兩套PPT,但分析人士認爲,CPO會在2025至2026年內離產品化更進一步。

本文來源:新智元,原文標題:《英偉達25年路線圖驚爆流出!老黃豪賭B100暴打AMD,祕密武器X100曝光》

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論