NVLink，英偉達的另一張王牌

遠川研究所 · 2023/12/18 23:11

來源：遠川科技評論
作者：何律衡

美國商務部的口風越來越緊，逼得黃式刀法重出江湖：多方證實，英偉達即將推出三款特供版GPU，由於出口管制，性能最強的H20，相較H100算力也大幅縮水80%。

算力被限制死，英偉達也只能在其他地方做文章。H20的最大亮點落在帶寬：

帶寬達到與H100持平的900G/s，爲英偉達所有產品中最高。較A100的600G/s，和另外兩款特供芯片A800和H800的400G/s大幅提高。

閹割算力，提升帶寬。看似割韭菜，實則含金量不低。

簡單來說，帶寬的大小決定了單位時間向GPU傳輸的數據總量。考慮到人工智能對數據吞吐能力病態的要求，如今衡量GPU的質量，帶寬已經成爲算力之外最重要的指標。

另一方面，雲服務公司和大模型廠商不是隻買幾顆芯片，而是一次性採購幾百上千張組成集群，芯片之間的數據傳輸效率也成了迫在眉睫的問題。

GPU和GPU之間的數據傳輸問題，讓英偉達在芯片算力、CUDA生態之外的另一張王牌浮出了水面：NVLink。

數據傳輸，算力的緊箍咒

要理解NVLink的重要性，首先要了解數據中心的工作原理。

我們平時玩遊戲，一般只需要一塊CPU加一塊GPU。但訓練大模型，需要的是成百上千個GPU組成的“集群”。

Inflection曾宣稱他們正在構建的AI集群，包含多達22000張 NVIDIA H100。按照馬斯克的說法，GPT-5的訓練可能需要3萬到5萬張H100，雖然被Altman否認，但也可以窺見大模型對GPU的消耗。

特斯拉自家的超算Dojo ExaPod，就是由多個Cabinet機櫃組成，每個機櫃裏有多個訓練單元，每個訓練單元都封裝了25個D1芯片。一整臺ExaPod包含3000個D1芯片。

但在這種計算集群中，會遇到一個嚴峻的問題：芯片彼此獨立，如何解決芯片之間的數據傳輸問題？

計算集群執行任務，可以簡單理解爲CPU負責下達命令，GPU負責計算。這個過程可以大概概括爲：

GPU先從CPU那裏拿到數據——CPU發佈命令，GPU進行計算——GPU計算完成，將數據回傳給CPU。如此循環往復，直到CPU彙總所有計算結果。

數據一來一回，傳輸效率就至關重要。如果有多個GPU，GPU之間還要分配任務，這又涉及到數據的傳輸。

所以，假設一家公司買下100顆H100芯片，它擁有的算力並不是100顆芯片的算力簡單相加，還要考慮到數據傳輸帶來的損耗。

一直以來，數據傳輸的主流方案是的PCIe。2001年，英特爾提出以PCIe取代過去的總線協議，聯手20多家業內公司起草技術規範，英偉達也是受益者。但時至今日，PCIe的缺點變得越來越明顯。

一是數據傳輸效率被算力的提升遠遠甩在了後面。

從2001年到2017年，運算設備的算力提高了5000倍。同期，PCIe迭代到4.0，帶寬（單通道）只從250MB/s提高到2GB/s，提升只有8倍。

算力的傳輸之間的巨大落差，導致效率大幅降低。就像擺了一桌滿漢全齊，餐具就給一個挖耳勺，怎麼吃都不痛快。

二是人工智能暴露了PCIe的設計缺陷。

在PCIe的設計思路里，GPU之間的數據傳輸都必須經過CPU。換句話說就是GPU1想和GPU2交換數據，都得由CPU來分發。

這在以前不是什麼問題，但人工智能主打一個大力出奇跡，計算集群裏GPU數量迅速膨脹。如果每個GPU都要靠CPU傳話，效率就大大降低了。用大家很熟悉的話來形容，就是“你一個人耽誤一分鐘，全班同學就浪費了一個小時”。

大幅提高PCIe的帶寬，不太符合英特爾擠牙膏上癮的人設。大幅提高CPU的處理能力是個辦法，但英特爾要是有這個本事，英偉達和AMD活不到今天。

於是，深感時不我待的英偉達動了另起爐竈的心思。

2010年，英偉達推出GPU Direct shared memory技術，通過減少一次複製的步驟，加快了GPU1-CPU-GPU2的數據傳輸速度。

次年，英偉達又推出GPU Direct P2P技術，直接去掉了數據在CPU中轉的步驟，進一步加快傳輸速度。

只是這些小幅度的技術改良，都基於PCIe方案。

和CUDA一樣，PCIe的競爭力在於生態。所謂“生態”，核心就是“大家都在用你憑什麼搞特殊”。由於大多數設備都採用PCIe接口，就算英偉達想掀桌子，其他人也得掂量掂量兼容性問題。

轉折點出現在2016年，AlphaGo 3:0戰勝李世石，GPU一夜之間從荼毒青少年的遊戲顯卡變成了人工智能的科技明珠，英偉達終於可以光明正大的進村了。

NVLink，解開PCIe封印

2016年9月，IBM發佈Power 8服務器新版本，搭載英偉達GPU：

兩顆Power 8 CPU連接了4顆英偉達P100 GPU，其中數據傳輸的紐帶從PCIe換成了英偉達自研NVLink，帶寬高達80G/s，通信速度提高了5倍，性能提升了14%。

同時，NVLink還實現了GPU-GPU之間的直接傳輸，不帶PCIe玩了。

2017年，基於Power8+P100的模型在22K的ImageNet數據集上實操了一把，識別準確率達到33.8%，雖然準確率相比前一年只提高了4%，但訓練時間從10天大幅縮短到了7小時。

小試牛刀效果不錯，老黃也不準備再裝了。

從2017年的Volta架構開始，英偉達給每一代GPU都搭配了基於NVLink方案的NVSwitch芯片，用來處理GPU之間的數據傳輸。

NVLink和NVSwitch的關係，可以簡單理解爲：NVLink是一種技術方案，NVSwitch和NVLink交換機都是這種方案的載體。

目前最新的DGX H100服務器中，每臺服務器擁有8個H100 GPU、4個NVSwitch芯片相互連接。

在DGX H100服務器發佈的同時，英偉達還發布了搭載兩個NVSwitch芯片的NVLink交換機，用來處理DGX H100服務器之間的數據傳輸。

也就是說，NVLink不僅負責DGX服務器內部8個GPU的連通，也負責整個服務器之間每個GPU的數據傳輸。

按照英偉達的設計，一個H100 SuperPOD系統，會用到32臺服務器總共256個H100 GPU，算力高達1EFlops。每套系統搭配18臺NVlink交換機，加起來就是128個NVSwitch芯片。

如上文所說，一個集群的算力並不是每個GPU算力的簡單相加，服務器間的數據傳輸效率是主要的制約因素。當集群的規模越來越大，NVLink的重要性也就越來越強。

NVLink漸成氣候，老黃的野心也逐漸成型：和PCIe拉幫結派搞生態不同，NVLink必須綁定英偉達的芯片使用。當然，考慮到PCIe的既定生態，H100系列中也有多個支持PCIe的版本。

爲了擴張自己的勢力範圍，英偉達還推出了基於Arm架構的Grace服務器CPU，用英偉達的CPU+英偉達的GPU+英偉達的互聯方案，捆綁在一起，統一數據中心市場。

有了這一層鋪墊，就不難理解H20的殺傷力。

雖然算力被砍了一大截，應付不了大參數的模型訓練，但H20本身的高帶寬和NVLink的加持，可以組成更大的集群，在一些小參數模型的訓練和推理上，反而更具性價比。

在英偉達的示範下，AI的內卷也算力轉向了互聯技術。

互聯，AI芯片的下半場

2023年11月，AMD發佈預告已久的MI300系列，直接對標英偉達H100。

發佈會上，除了例行的紙面算力比較外，Lisa Su重點強調了MI300帶寬上的遙遙領先：MI300X帶寬高達5.2TB/s，比H100還要高1.6倍。

這是實話，不過得先擠擠水分。

Lisa Su用來與MI300X比較的是H100 SXM版，但性能更高的H100 NVL版通過NVLink集成兩顆GPU帶寬達到7.8TB/s，仍高於MI300X的。

但這足見AMD對帶寬的重視程度，以及AI芯片競爭的新焦點：互聯技術。

英偉達發佈NVLink的幾個月後，AMD就推出了高速互聯技術Infinity Fabric，提供CPU-CPU之間最高到512GB/s的帶寬，後又擴展到GPU-GPU、CPU-GPU互聯。

看着兩大競爭對手甩開帶寬的包袱放飛自我，英特爾作爲PCIe的帶頭大哥，自然心情複雜。

2019年，英特爾聯手戴爾、惠普等推出新的互聯標準CXL，本質與NVLink和Inifinity Fabric一樣，都是爲了擺脫帶寬掣肘，2.0標準最高帶寬可達到32GT/s。

英特爾的心機在於，由於CXL是基於PCIe擴展的，因此和PCIe接口兼容。也就是說，過去用PCIe接口的設備可以“無痛”改用CXL，生態大法又立了大功。

芯片巨頭圍繞互聯技術鬥得正歡，轉而自研芯片的AI大廠，也在解決互聯問題。

谷歌在自家TPU上採用了自研的光電路交換機技術（OCS），甚至還自研了光路開關芯片Palomar，只爲了提高數據中心裏幾千顆TPU之間的通信速度。特斯拉也自己開發了通信協議，處理Dojo內部的數據傳輸。

回到本文開頭，也正是這種差距，才讓NVLink成爲了英偉達的新“刀法”。

大模型所需的算力，並非國產AI芯片不可觸及，但數據傳輸技術瘸腿依然會造成不可忽視的成本問題。

舉一個不太嚴謹的例子，來幫助大家理解這個問題：

假設H20和國產AI芯片的單價都是1萬元，一顆H20提供的算力是1，國產芯片提供的算力是2，但考慮到集群規模帶來的算力損耗，由於NVLink的存在，H20的損耗是20%，國產芯片是50%，那麼一個算力需求100的數據中心，需要125顆H20或是200顆國產芯片。

在成本上，就是125萬和200萬的差距。

模型規模越大，數據中心所需的芯片越多，成本的差距就越大。要是黃仁勳狠狠心，刀法再犀利些，或許還可以賣出更低的價格。如果你是國內AIGC廠商的採購總監，你怎麼選？

互聯技術上的弱勢，創造了英偉達的另一張王牌。

按照當前的消息，原本11月發佈的H20已經延後到明年第一季度，接受預定、出貨時間也將順勢延後。延遲發佈的原因並不確切，但在H20正式開售前，留給國產芯片的機會窗口，已經在倒計時了。

英偉達的偉大在於，它以高度的前瞻性，幾乎以一己之力開闢了一條人工智能的高速公路。

而它的成功在於，黃仁勳在每一個你可能經過的車道，都提前修好了收費站。

編輯/jayden

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

NVLink，英伟达的另一张王牌

NVLink，英偉達的另一張王牌

数据传输，算力的紧箍咒

NVLink，解开PCIe封印

互联，AI芯片的下半场

數據傳輸，算力的緊箍咒

NVLink，解開PCIe封印

互聯，AI芯片的下半場

NVLink，英伟达的另一张王牌

NVLink，英偉達的另一張王牌

数据传输，算力的紧箍咒

NVLink，解开PCIe封印

互联，AI芯片的下半场

數據傳輸，算力的緊箍咒

NVLink，解開PCIe封印

互聯，AI芯片的下半場

風險及免責聲明

聲明