share_log

NVLink,英伟达的另一张王牌

NVLink,英偉達的另一張王牌

遠川研究所 ·  2023/12/18 23:11

來源:遠川科技評論
作者:何律衡

美國商務部的口風越來越緊,逼得黃式刀法重出江湖:多方證實,英偉達即將推出三款特供版GPU,由於出口管制,性能最強的H20,相較H100算力也大幅縮水80%。

算力被限制死,英偉達也只能在其他地方做文章。H20的最大亮點落在帶寬:

帶寬達到與H100持平的900G/s,爲英偉達所有產品中最高。較A100的600G/s,和另外兩款特供芯片A800和H800的400G/s大幅提高。

閹割算力,提升帶寬。看似割韭菜,實則含金量不低。

H20踩着紅線免受制裁
H20踩着紅線免受制裁

簡單來說,帶寬的大小決定了單位時間向GPU傳輸的數據總量。考慮到人工智能對數據吞吐能力病態的要求,如今衡量GPU的質量,帶寬已經成爲算力之外最重要的指標。

另一方面,雲服務公司和大模型廠商不是隻買幾顆芯片,而是一次性採購幾百上千張組成集群,芯片之間的數據傳輸效率也成了迫在眉睫的問題。

GPU和GPU之間的數據傳輸問題,讓英偉達在芯片算力CUDA生態之外的另一張王牌浮出了水面:NVLink

數據傳輸,算力的緊箍咒

要理解NVLink的重要性,首先要了解數據中心的工作原理。

我們平時玩遊戲,一般只需要一塊CPU加一塊GPU。但訓練大模型,需要的是成百上千個GPU組成的“集群”。

Inflection曾宣稱他們正在構建的AI集群,包含多達22000張 NVIDIA H100。按照馬斯克的說法,GPT-5的訓練可能需要3萬到5萬張H100,雖然被Altman否認,但也可以窺見大模型對GPU的消耗。

特斯拉自家的超算Dojo ExaPod,就是由多個Cabinet機櫃組成,每個機櫃裏有多個訓練單元,每個訓練單元都封裝了25個D1芯片。一整臺ExaPod包含3000個D1芯片。

但在這種計算集群中,會遇到一個嚴峻的問題:芯片彼此獨立,如何解決芯片之間的數據傳輸問題?

特斯拉的超算ExaPOD
特斯拉的超算ExaPOD

計算集群執行任務,可以簡單理解爲CPU負責下達命令,GPU負責計算。這個過程可以大概概括爲:

GPU先從CPU那裏拿到數據——CPU發佈命令,GPU進行計算——GPU計算完成,將數據回傳給CPU。如此循環往復,直到CPU彙總所有計算結果。

數據一來一回,傳輸效率就至關重要。如果有多個GPU,GPU之間還要分配任務,這又涉及到數據的傳輸。

所以,假設一家公司買下100顆H100芯片,它擁有的算力並不是100顆芯片的算力簡單相加,還要考慮到數據傳輸帶來的損耗。

一直以來,數據傳輸的主流方案是的PCIe。2001年,英特爾提出以PCIe取代過去的總線協議,聯手20多家業內公司起草技術規範,英偉達也是受益者。但時至今日,PCIe的缺點變得越來越明顯。

一是數據傳輸效率被算力的提升遠遠甩在了後面。

從2001年到2017年,運算設備的算力提高了5000倍。同期,PCIe迭代到4.0,帶寬(單通道)只從250MB/s提高到2GB/s,提升只有8倍。

算力的傳輸之間的巨大落差,導致效率大幅降低。就像擺了一桌滿漢全齊,餐具就給一個挖耳勺,怎麼吃都不痛快。

二是人工智能暴露了PCIe的設計缺陷。

在PCIe的設計思路里,GPU之間的數據傳輸都必須經過CPU。換句話說就是GPU1想和GPU2交換數據,都得由CPU來分發。

這在以前不是什麼問題,但人工智能主打一個大力出奇跡,計算集群裏GPU數量迅速膨脹。如果每個GPU都要靠CPU傳話,效率就大大降低了。用大家很熟悉的話來形容,就是“你一個人耽誤一分鐘,全班同學就浪費了一個小時”。

大幅提高PCIe的帶寬,不太符合英特爾擠牙膏上癮的人設。大幅提高CPU的處理能力是個辦法,但英特爾要是有這個本事,英偉達和AMD活不到今天。

於是,深感時不我待的英偉達動了另起爐竈的心思。

2010年,英偉達推出GPU Direct shared memory技術,通過減少一次複製的步驟,加快了GPU1-CPU-GPU2的數據傳輸速度。

次年,英偉達又推出GPU Direct P2P技術,直接去掉了數據在CPU中轉的步驟,進一步加快傳輸速度。

只是這些小幅度的技術改良,都基於PCIe方案。

和CUDA一樣,PCIe的競爭力在於生態。所謂“生態”,核心就是“大家都在用你憑什麼搞特殊”。由於大多數設備都採用PCIe接口,就算英偉達想掀桌子,其他人也得掂量掂量兼容性問題。

轉折點出現在2016年,AlphaGo 3:0戰勝李世石,GPU一夜之間從荼毒青少年的遊戲顯卡變成了人工智能的科技明珠,英偉達終於可以光明正大的進村了。

NVLink,解開PCIe封印

2016年9月,IBM發佈Power 8服務器新版本,搭載英偉達GPU:

兩顆Power 8 CPU連接了4顆英偉達P100 GPU,其中數據傳輸的紐帶從PCIe換成了英偉達自研NVLink,帶寬高達80G/s,通信速度提高了5倍,性能提升了14%。

Power8+P100架構
Power8+P100架構

同時,NVLink還實現了GPU-GPU之間的直接傳輸,不帶PCIe玩了。

2017年,基於Power8+P100的模型在22K的ImageNet數據集上實操了一把,識別準確率達到33.8%,雖然準確率相比前一年只提高了4%,但訓練時間從10天大幅縮短到了7小時。

小試牛刀效果不錯,老黃也不準備再裝了。

從2017年的Volta架構開始,英偉達給每一代GPU都搭配了基於NVLink方案的NVSwitch芯片,用來處理GPU之間的數據傳輸。

NVLink和NVSwitch的關係,可以簡單理解爲:NVLink是一種技術方案,NVSwitch和NVLink交換機都是這種方案的載體。

目前最新的DGX H100服務器中,每臺服務器擁有8個H100 GPU、4個NVSwitch芯片相互連接。

帶有標註的NVSwitch芯片裸片
帶有標註的NVSwitch芯片裸片

在DGX H100服務器發佈的同時,英偉達還發布了搭載兩個NVSwitch芯片的NVLink交換機,用來處理DGX H100服務器之間的數據傳輸。

也就是說,NVLink不僅負責DGX服務器內部8個GPU的連通,也負責整個服務器之間每個GPU的數據傳輸。

按照英偉達的設計,一個H100 SuperPOD系統,會用到32臺服務器總共256個H100 GPU,算力高達1EFlops。每套系統搭配18臺NVlink交換機,加起來就是128個NVSwitch芯片。

如上文所說,一個集群的算力並不是每個GPU算力的簡單相加,服務器間的數據傳輸效率是主要的制約因素。當集群的規模越來越大,NVLink的重要性也就越來越強。

NVLink漸成氣候,老黃的野心也逐漸成型:和PCIe拉幫結派搞生態不同,NVLink必須綁定英偉達的芯片使用。當然,考慮到PCIe的既定生態,H100系列中也有多個支持PCIe的版本。

爲了擴張自己的勢力範圍,英偉達還推出了基於Arm架構的Grace服務器CPU,用英偉達的CPU+英偉達的GPU+英偉達的互聯方案,捆綁在一起,統一數據中心市場。

有了這一層鋪墊,就不難理解H20的殺傷力。

雖然算力被砍了一大截,應付不了大參數的模型訓練,但H20本身的高帶寬和NVLink的加持,可以組成更大的集群,在一些小參數模型的訓練和推理上,反而更具性價比。

在英偉達的示範下,AI的內卷也算力轉向了互聯技術。

互聯,AI芯片的下半場

2023年11月,AMD發佈預告已久的MI300系列,直接對標英偉達H100。

發佈會上,除了例行的紙面算力比較外,Lisa Su重點強調了MI300帶寬上的遙遙領先:MI300X帶寬高達5.2TB/s,比H100還要高1.6倍。

這是實話,不過得先擠擠水分。

Lisa Su用來與MI300X比較的是H100 SXM版,但性能更高的H100 NVL版通過NVLink集成兩顆GPU帶寬達到7.8TB/s,仍高於MI300X的。

但這足見AMD對帶寬的重視程度,以及AI芯片競爭的新焦點:互聯技術

英偉達發佈NVLink的幾個月後,AMD就推出了高速互聯技術Infinity Fabric,提供CPU-CPU之間最高到512GB/s的帶寬,後又擴展到GPU-GPU、CPU-GPU互聯。

看着兩大競爭對手甩開帶寬的包袱放飛自我,英特爾作爲PCIe的帶頭大哥,自然心情複雜。

2019年,英特爾聯手戴爾、惠普等推出新的互聯標準CXL,本質與NVLink和Inifinity Fabric一樣,都是爲了擺脫帶寬掣肘,2.0標準最高帶寬可達到32GT/s。

英特爾的心機在於,由於CXL是基於PCIe擴展的,因此和PCIe接口兼容。也就是說,過去用PCIe接口的設備可以“無痛”改用CXL,生態大法又立了大功。

芯片巨頭圍繞互聯技術鬥得正歡,轉而自研芯片的AI大廠,也在解決互聯問題。

谷歌在自家TPU上採用了自研的光電路交換機技術(OCS),甚至還自研了光路開關芯片Palomar,只爲了提高數據中心裏幾千顆TPU之間的通信速度。特斯拉也自己開發了通信協議,處理Dojo內部的數據傳輸。

回到本文開頭,也正是這種差距,才讓NVLink成爲了英偉達的新“刀法”。

大模型所需的算力,並非國產AI芯片不可觸及,但數據傳輸技術瘸腿依然會造成不可忽視的成本問題。

舉一個不太嚴謹的例子,來幫助大家理解這個問題:

假設H20和國產AI芯片的單價都是1萬元,一顆H20提供的算力是1,國產芯片提供的算力是2,但考慮到集群規模帶來的算力損耗,由於NVLink的存在,H20的損耗是20%,國產芯片是50%,那麼一個算力需求100的數據中心,需要125顆H20或是200顆國產芯片。

在成本上,就是125萬和200萬的差距。

模型規模越大,數據中心所需的芯片越多,成本的差距就越大。要是黃仁勳狠狠心,刀法再犀利些,或許還可以賣出更低的價格。如果你是國內AIGC廠商的採購總監,你怎麼選?

互聯技術上的弱勢,創造了英偉達的另一張王牌。

按照當前的消息,原本11月發佈的H20已經延後到明年第一季度,接受預定、出貨時間也將順勢延後。延遲發佈的原因並不確切,但在H20正式開售前,留給國產芯片的機會窗口,已經在倒計時了。

英偉達的偉大在於,它以高度的前瞻性,幾乎以一己之力開闢了一條人工智能的高速公路。

而它的成功在於,黃仁勳在每一個你可能經過的車道,都提前修好了收費站。

編輯/jayden

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論