在GTC2025大會上, $英偉達 (NVDA.US)$ 依舊延續着「算力的故事」。如果AI的發展依舊遵循着scaling law(規模定律),那麼這個故事還能繼續講吓去。
而事實卻是,雖然「算力不眠」的核心框架未變,但底層技術架構正在悄然發生變革。
當行業目光仍聚焦於 Blackwell Ultra GPU 的性能突破時,演講中那僅有幾分鐘的技術發佈 ——「將硅光技術直接集成至交換機芯片」—— 實則暗藏着 AI 基礎設施演進的關鍵密碼。
英偉達的CPO,究竟是什麼?
在GTC大會上,黃仁勳的Keynote環節裏,英偉達宣佈了Spectrum-X和Quantum-X硅光CPO交換機。這兩款產品支持144×800G(H2 2025推出)和512×800G(H2 2026推出)的配置,旨在滿足AI超算對高帶寬、低功耗的迫切需求。
Spectrum-X Photonics: 以太網交換機,提供高達512個800Gb/s端口或2,048個200Gb/s端口,總吞吐量可達400Tbps
Quantum-X Photonics: InfiniBand交換機,提供144個基於200Gb/s SerDes的800Gb/s端口,總吞吐達115.2Tbps
根據Keynote提供的信息,這些交換機相比傳統解決方案提供了顯著優勢:
減少了系統整體的激光器數量(75%)
實現了3.5倍的能耗降低
網絡彈性提升10倍,顯著增強可靠性並保障運行時間
部署速度提升1.3倍
信號完整性提高到63倍


爲百萬GPU,AI工廠打開大門
發佈會上,老黃的原話是:「NVIDIA將硅光直接集成到交換機中,打破了超大規模和企業網絡的舊有限制,爲百萬GPU AI工廠打開大門。」
在Scaling Law的引領下,不斷提升算力的規模成爲了業界共識。從系統的角度看,擴大算力規模有兩個維度:一是提升芯片算力;二是增加系統中芯片的數量,也就是提升集群規模。這又有兩種方式:橫向擴展(Scale-Out)和縱向擴展(Scale-Up)。
1)在第一種情況下,單芯片算力本身的效能提升主要受兩個因素的影響:算力值(密度)和內存帶寬,要想取得大幅度提升都需要在高端工藝製程上下功夫。
舉例來說,同樣面積下3nm製程的芯片就是比12nm的算力密度要高很多,HBM的帶寬就是要比傳統的DDR要高很多,這都和生產製造能力強相關。
對Fabless的AI芯片公司來講,卷算力就是卷製程,已經無法靠自己的架構設計的多麼巧妙來實現了,而是是否可以獲得甚至牽頭開發頂級製造能力的競爭。而即便這些都可以解決,基於電子計算的硅芯片的高端製程工藝提升,也面臨着物理極限的限制(劃重點,後面會提到)。
2)第二種是集群規模的提升,橫向擴展(Scale Out)指的是突破規模限制進行擴展,而縱向擴展(Scale Up)則指成比例地增加性能。
橫向擴展:可以理解爲分佈式計算,通過增加獨立的服務器來分散工作負載,從而提高計算容量。在AI集群裏可以類比爲InfiniBand或者RoCE網絡在做的事;
縱向擴展:專注於升級單台服務器或基於機箱的系統,通過向現有系統增加芯片來提升算力。在AI集群裏可以類比爲NVLink在做的事情;
可以看出,提升集群規模算力的本質,是在卷通信技術;

CPO究竟解決了什麼問題?
這樣一來,集群中的通信和組網技術就成了系統算力提升的關鍵要素。
傳統的方案裏,其中最重要的是兩點一線:兩點指的是通信兩端的網絡芯片(卡)和交換機,一線指的是基於包含了光模塊和光纖在內的光傳輸系統。信號的傳輸是在光纖裏,通過光模塊連接到交換機。
傳統的光通訊架構裏,隨着交換機帶寬的增加,總鏈路功耗也快速增長。如下圖所示:

鏈路速率提升不僅意味着功耗增加,也加大了信號完整性(SI)的技術難度,技術進步的挑戰顯著增大,如下圖所示:

考慮到光模塊中DSP和交換機中的ASIC都是電芯片,如果將DSP的一些功能轉移到ASIC上,就可以省掉DSP,進而降低功耗。而另一方面,如果光模塊中的光芯片和交換機中的電芯片(ASIC)的距離縮的足夠短,短到可以集成在一顆芯片上,那就又解決了信號完整性的問題。如圖所示:


Co-Packaged Optics(CPO,共封裝光學,筆者也會翻譯作光電合封)的出現,就是爲了解決這一系列問題。與傳統基於DSP的可插拔光模塊相比具有顯著優勢。
CPO將光學元件直接與ASIC集成,拿掉了DSP芯片,將其功能遷移至ASIC(交換機的Switch芯片)側。這種集成有效降低了功耗,提升了效率和整體性能。通過將DSP從光模塊中移除,並將光芯片與Switch ASIC芯片集成在一起從而極大縮短了二者之間的傳輸距離,CPO減少了信號轉換過程中的延遲和功耗,使其成爲高速數據傳輸中更具可擴展性和能效優勢的解決方案。如圖所示,基於台積電工藝下的能耗與延時在可插拔和CPO下的提升。

簡而言之,這次發佈的CPO交換機,就是去掉了光模塊,讓光纖連接器直接接入交換機。



對於上圖中典型的「AI工廠」,以400K的GPU數量爲例,主要的功耗數據如下表所示:

巨頭入局,AI計算將迎來改變
事實上,英偉達並不是業內首家發佈CPO交換機的企業,此前,Broadcom率先發佈了25.6T和51.2T的CPO交換機芯片,並和業內廠商推出對應的CPO交換機。


還有Marvell,也推出了Teralynx® 的CPO方案。思科之前也推出過25.6T的CPO交換機。
今天NVIDIA CPO方案的正式推出,其重要的意義在於,全球最重要的數據中心級芯片大廠,繼Broadcom和Marvell兩大頂級通信芯片和AI ASIC定製業務巨頭之後,計算與通信雙料芯片巨頭的英偉達也實現了產品化。這些頂級巨頭在產業具有極大的影響力,其在硅光和光電子領域的投入與產品迭代,對推動硅光與光電子產業的發展、進而實現計算系統的光化,都會起到超越推波助瀾的作用。
到此,意義已經不限於交換機。基於硅光的光電合封,將會從面向交換的CPO擴展到 GPU或其他AI計算芯片上,進一步提升計算芯片間通訊效能。如圖所示,Broadcom面向橫向擴展的基於網絡交換的CPO方案和麪向縱向擴展的基於AI計算核的CPO方案示意圖。


事實上,如果將同樣的思路用在Scale-Up上,也就是說將AI芯片和光芯片集成到一顆芯片上,AI芯片間互聯會極大地提高傳輸帶寬、降低功耗、提升信號完整性,還可以大幅度拓展節點數。拿英偉達來舉例,如果可以實現GPU+SiPh(硅光)的CPO,既可以加大NVLink的帶寬,還可以拓展集聯的GPU數量,NVL後面的數字可能就會超越288了。這種將GPU的基於電計算的硅芯片和基於光的硅光芯片異質集成,就是面向AI計算的CPO了。如圖所示,傳輸每比特所耗費的能量更低,延時更短。

如果站在互聯的角度,業內也將這樣的方案稱之爲OIO(Optical I/O);
本次GTC上發佈的新GPU架構名叫Rubin,下一代將會是Feynman,預期在2028年推出。到那時,基於Feynman的架構將會是具備OIO能力新芯片:
Silicon Photonics (硅光連接) 將會替代銅纜互聯
世界第一顆 1.6T 基於硅光的光互連接口
GPU/NVSwitch 將會實現光互連,如圖所示:

對中國的意義和影響是什麼?
近些年來,地緣政治格局出現巨大的不確定性,技術限制成了新聞常態。對我國來說,基於電計算的算力芯片,一直面臨着高端工藝製程和封裝的技術限制。美國商務部從2022年開始,逐年對此推出限制,從早起的算力密度、算力上限和互聯帶寬,到後來的晶體管數量、芯片面積和製程工藝,以致近期直接推行的白名單制度。中國算力芯片的前行之路,困難重重。多少業內精英,投身其中;多少天量資本,投入其中;而今,似有希望的微光,但產能依然緊缺;高端技術與工藝,仍需追趕。
而光計算與光傳輸給了另一重希望。
前面提到,算力芯片本身算力的提高,如果還是基於電子計算的硅算力核(Si-Compute Die),就要面臨着物理的極限。從技術路線的可行性角度看,基於光計算的算力核(Optical-Compute Die)是提升算力能耗比新的方向。當把AI芯片中的算力核也換成光計算的時候,這種基於光計算核+OIO的新型光電合封芯片,就會成爲非常重要的技術路線和產品方案。


這種形態的AI算力芯片新形態,是下一階段算力的競爭戰略高地。
硅光芯片的流片,對Fab的要求並沒有那麼高,DUV光刻機就可以滿足需求,甚至都可以脫離光刻機採取其他的方式來實現更有想象力的產品形態。基於傳統電芯片封裝技術的積累,突破光電合封的難度並不會比傳統電芯片難更多。從這個角度來說,CPO帶來的趨勢對我國是友好的。在光通訊領域,中國有着世界前列的光模塊和光芯片廠商,交換機領域國內企業市佔率也較高。硅光產業近一兩年來也獲得了更多的重視,硅光產線的建設也方興未艾。
但,還是要正視差距。如前所述,此領域靠前的依然是Broadcom、NVDIA和Marvell這些傳統大廠,是他們在引領產業和技術的發展。而在製造端,台積電作爲傳統硅電芯片的高端製造巨頭,在2024年也對外宣佈了面向光電合封的技術方案——COUPE方案,在當前時刻又處於領先優勢。
更需要謹慎的是,美國在去年也開始關注中國的硅光產業發展,表示會實施出台限制政策。國會兩黨議員在10月28日敦促美國商務部審查中國發展硅光子技術對美國國家安全造成的威脅。其表示,硅光子技術是一個迅速發展的領域,可以加快人工智能的進步。
但,東方既白,曙「光」已然呈現。在AI產業的競爭中,一直可以留在牌桌上是最重要的戰略目標。電芯片的時代在努力趕上,光芯片在更好開局的情況下,中國更不能、也不會落下。
編輯/Somer
評論(0)
請選擇舉報原因