share_log

悄然崛起的英伟达新对手

悄然崛起的英偉達新對手

創業邦 ·  06/17 18:47

來源:創業邦

作者丨邵逸琦

圖源丨圖蟲創意

英偉達都有哪些對手?

首選當然是AMD和英特爾,前者本身就有AI加速卡的業務,集CPU和GPU設計能力與一身,而後者呢,作爲x86架構的奠基人,如今也涉足AI加速卡領域,可以見到它們所推出的產品不僅在參數上對標英偉達,還在定位與售價等方面發動了一輪又一輪的攻勢。

而英偉達的客戶與博通和Marvell組成統一戰線後,也成了它的對手,不斷推陳出新的自研定製芯片,開始取代傳統的通用AI加速卡,讓英偉達感受到了另一種壓力。

而在網絡領域,英偉達也迎來了自己的對手。

英偉達獨佔AI網絡

進入21世紀以來,隨着雲計算、大數據的日益普及,數據中心得到了快速發展。而InfiniBand在其中發揮了很大的作用,尤其是從2023年開始,以ChatGPT爲代表的大型AI模型依賴於InfiniBand,讓這一網絡技術的關注度進一步提升。

衆所周知,現代數字計算機自誕生以來就一直採用馮·諾依曼體系結構,該體系結構中有CPU(算術邏輯單元和控制單元)、內存(RAM、硬盤)和I/O(輸入/輸出)設備。20世紀90年代初,爲了支持越來越多的外部設備,Intel率先在標準PC架構中引入了外圍組件互連(PCI)總線設計。

隨後,互聯網進入快速發展階段,在線業務和用戶規模的不斷增長對IT系統容量提出了巨大挑戰。在摩爾定律的支持下,CPU、內存、硬盤等部件都在飛速進步,而PCI總線的更新換代速度卻比較慢,大大限制了I/O性能,成爲了整個系統的瓶頸。

爲了解決這個問題,Intel、微軟和SUN牽頭制定了“下一代I/O(NGIO)”技術標準,而IBM、康柏和惠普則牽頭制定了“未來I/O(FIO)”,並於1998年聯合制定了PCI-X標準。

1999 年,FIO 開發者論壇和 NGIO 論壇合併成立了InfiniBand 貿易協會 (IBTA)。很快,在2000年,InfiniBand架構規範1.0版本正式發佈。InfiniBand誕生的目的就是爲了取代PCI總線,它引入了RDMA協議,提供更低的延遲、更高的帶寬、更高的可靠性,從而實現更強大的I/O性能。

同樣在1999年5月,幾位從英特爾和伽利略科技公司出走的員工在以色列成立了一家叫Mellanox的芯片公司, Mellanox 成立後加入了 NGIO,後來 NGIO 與 FIO 合併,Mellanox 也加入了 InfiniBand陣營,並於 2001 年推出了第一款 InfiniBand 產品。

而隨着英特爾轉向PCI Express(PCIe),以及微軟退出InfiniBand,該網絡技術開始轉向計算機集群互聯的應用領域,而新成立的Mellanox開始走上舞臺,逐漸成爲InfiniBand發展過程中的中堅力量。

InfiniBand雖然同時被英特爾和微軟放棄,但它在新的領域中找到了增長點。2012年以後,隨着高性能計算(HPC)需求的不斷增長,InfiniBand技術不斷取得長足進步,市場份額不斷提升。2015年,InfiniBand技術在TOP500榜單中的份額首次突破50%,達到51.4%(257個系統)。這標誌着InfiniBand技術首次成功挑戰以太網技術,成爲超級計算機首選的內部互連技術。

而Mellanox也在不斷成長:2010年,Mellanox與Voltaire合併,Mellanox和QLogic成爲InfiniBand的主要供應商;2013年,Mellanox 進一步進軍網絡領域,收購硅光技術公司 Kotura 和並行光互連芯片製造商 IPtronics,進一步鞏固其行業地位;到 2015 年,Mellanox 已佔據全球 InfiniBand 市場80% 的份額。業務範圍從芯片擴展到網卡、交換機/網關、遠程通信系統、線纜和模塊,成爲世界級網絡供應商。

隨着AI的持續發展,InfiniBand的價值也日益顯現,Mellanox也因其在該技術上近乎壟斷的地位而成爲廠商眼裏的香餑餑。

爲什麼InfiniBand對於AI如此重要?對於AI超級計算機來說,我們可以把它看作一個由許多圖形處理單元(GPUs)組成的集群,這些單元進行大量複雜的計算。此外,還有一些中央處理單元(CPUs)負責指揮計算機的操作,再加上一些DRAM芯片和NAND芯片,成本大約分配爲:50-60%用於GPUs,10-15%用於CPUs和DRAM芯片,5-10%用於NAND芯片。

但上述所有的芯片需要互相連接,這可以通過InfiniBand或以太網電纜來實現,也就是所謂的“網絡”,它們佔硬件成本的10-15%,而目的就是提供儘可能高的帶寬,讓數據能快速傳輸,倘若不能實現更高的帶寬,那麼無論在GPUs上花費多少成本,最後都會變得毫無意義。

英偉達作爲AI領域最早的探索者之一,很敏銳地察覺到了這一點,同時決定將其關注點從遊戲轉向AI。2019 年,英偉達以69 億美元收購 Mellanox,超過了競爭對手英特爾和微軟的出價,後兩者的出價分別爲 60 億美元和 55 億美元,這筆數額龐大的收購,爲英偉達進入網絡技術市場鋪平了道路。

當時英偉達的CEO黃仁勳解釋稱,收購Mellanox的原因是:“這是兩家全球領先的高性能計算公司的合併,我們專注於加速計算,而Mellanox則專注於互連和存儲。”

GPU和網絡技術捆綁銷售,聽起來有點像強買強賣,但令許多人都未預料到的是,由黃仁勳所打造的這一模式迅速取得了成功。截至今年1月,英偉達的年收入翻了一番多,達到609億美元,計算和網絡部門的銷售額增長了215%,佔英偉達業務的78%。雖然英偉達的GPU部分引起了大量關注,但其網絡業務也是成功的關鍵。在公司的最後一次業績電話會議上,黃仁勳表示,InfiniBand的收入同比增長了五倍,意味着其增長速度約爲整個計算和網絡業務的兩倍。

英偉達將自身的 GPU 算力與 Mellanox 的網絡技術相結合,打造出了一個強大的“計算引擎”,在計算基礎設施方面,英偉達無疑佔據着領先優勢,

英偉達的大威脅

過去,業界一直在使用英偉達配套的 InfiniBand 網絡解決方案來部署人工智能和機器學習技術,原因很簡單,它是目前最成熟的支持大規模部署的網絡技術,但InfiniBand並非完美,一方面由於收購,它變成了英偉達的獨家產品,另一方面,它的成本昂貴,絕非普通企業可以輕鬆承擔得起的。

英偉達的CEO黃仁勳曾調侃道,InfiniBand只佔集群成本的20%,而它能將人工智能訓練的性能提高20%,某種程度上已經收回了成本,因而InfiniBand實際上是免費的。但這樣的論斷顯然是有失偏頗的,客戶必須首先拿出集群成本的20%,才能真正榨取出集群的性能,這就意味着用120%的成本創造120%的性能。

相對比之下,基於以太網的集群通常只需要額外的10% 甚至更低的成本,儘管後者在性能上往往難以與InfiniBand匹敵,但它憑着自己的低廉價格也爭取到了一部分用戶。事實上,如今高性能網絡的競爭,是InfiniBand與高速以太網的較量,資源充足的廠商會更傾向於選擇InfiniBand,而注重性價比的廠商則可能傾向於高速以太網。

但這樣的情況並非一成不變,即便是那些具備雄厚財力的大企業,也在尋找更廉價更合適的網絡方案,英偉達與InfiniBand正在不斷受到挑戰。

2023年7月,Linux基金會宣佈,將監督成立一個超級以太網聯盟,該聯盟的創始成員包括AMD、Arista、Broadcom、思科、Eviden、HPE、英特爾、Meta 和微軟的支持下,超以太網聯盟表示將致力於改進以太網,以滿足高性能計算和人工智能系統所需的低延遲和可擴展性要求。

該聯盟創立的首要任務是定義和開發他們所稱的超以太網傳輸(UET)協議,這是一種新的以太網傳輸層協議,能更好地滿足人工智能和 HPC 工作負載的需求。

在高層次上,超以太網聯盟希望以外科手術的方式完善以太網,只對實現目標所必需的部分進行改進和改動。從一開始,該聯盟就着眼於改進以太網技術的軟件層和物理層,但不改變其基本結構,以確保成本效益和互操作性。

聯盟的技術目標包括開發規範、應用程序接口和源代碼,以定義超以太網通信的協議、接口和數據結構。此外,聯盟還致力於更新現有的鏈路和傳輸協議,創建新的遙測、信令、安全和擁塞機制,以更好地滿足大型人工智能和高性能計算集群的需求。同時,由於人工智能和高性能計算工作負載有許多不同之處,UET 將爲適當的部署提供單獨的配置文件。

得益於這個超級以太網聯盟,過去以太網運行 AI 工作負載的幾個問題正在解決,也推動了以太網在傳統 HPC 工作負載中的更廣泛採用,這也讓以太網網絡公司找到了反攻InfiniBand的機會。

超級以太網聯盟成員之一,以太網絡公司Arista Networks在今年2月的業績電話會議中,其首席執行官Jayshree Ullal解釋了InfiniBand和以太網之間的區別:“如你所知,從歷史上看,當單獨考慮InfiniBand和以太網時各有優勢。傳統上,InfiniBand被認爲是無損的,而以太網被認爲有一些損失特性。然而當你實際將一個完整的GPU集群連同光學設備等一同考慮,並查看所有數據包大小上的任務完成時間一致性時,數據——包括來自博通的第三方數據——顯示在現實環境中比較這些技術,以太網的任務完成時間大約快10%。所以,你可以孤立地看待這些技術,也可以在實際集群中看待它們。而在實際集群中,我們已經看到以太網的改進。請記住,這只是我們今天所知的以太網。一旦我們有了超級以太網聯盟和一些改進,比如數據包噴灑、動態負載平衡和擁塞控制,我相信這些數字會變得更好。”

“Arista聲稱其以太網在任務完成速度上比InfiniBand快約10%,這一點令我們感到意外,特別是考慮到InfiniBand在當前GPU集群中的深度滲透。”Jefferies分析師George Notter在會議後表示。

他指出,英偉達將GPUs與InfiniBand簡單捆綁銷售是該技術成功的關鍵原因,換句話說,InfiniBand受歡迎的部分原因是因爲它與英偉達的GPU一起銷售,但這現在GPU的積壓訂單減少了,使用InfiniBand的動機可能也會減少,這對Arista以及另一家以太網網絡公司博通來說是個好消息。

“我們在四個主要的AI以太網集群中取得了進展,這些集群都是我們戰勝InfiniBand的案例。在所有四個案例中,我們現在正從試驗轉向試點,每年連接數千個GPU,”Arista首席執行官Jayshree Ullal解釋道。

Arista在上季度業績表現也非常不錯,截至3月的三個月中,Arista的收入同比增長了16%,每股收益增長了44%,分析師預計隨着AI基礎設施支出的增加,這一增長將會加速。Arista約40%的業務來自微軟和Meta,這兩家公司都宣佈明年將再次增加資本支出。Jefferies分析師George Notter最近還將Arista的評級從持有上調至買入,他表示:“現在,部署基於GPU的基礎設施(包括以太網)的熱潮將會持久。”

Arista並不是唯一一家受益於“部署熱潮”的網絡公司。博通截至2月4日的三個月收入同比增長了34%,達到120億美元,其中網絡收入增長了46%,達到33億美元。“這主要是由於我們的兩個超大規模客戶對AI加速器的強勁需求,”博通首席執行官Hock Tan在業績電話會議上解釋道。

對網絡硬件的需求比博通預期的還要快,“超大規模客戶以及部署AI數據中心的大型企業的強勁需求”推動了這一增長。因此,博通將其網絡業務的全年增長預期從30%上調至35%。整體而言,博通今年的收入預計爲500億美元,比去年增長40%。

國外媒體nextplatform提出了一個有趣的數學問題:Arista Networks 在 AI 集群互連銷售中每賺取 7.5 億美元,英偉達可能會損失 15 億至 22.5 億美元。在過去的 12 個月中,粗略估計英偉達在 InfiniBand 網絡方面的銷售額爲 64.7 億美元,而數據中心的 GPU 計算銷售額爲 397.8 億美元,在四比一的分紅率和穩定的市場條件下,英偉達可以保留約 13 億美元,而超級以太網聯盟可以保留 17 億至 26 億美元,如果一切保持不變,InfiniBand 的銷售目標將達到 120 億美元。

該媒體指出,超級以太網聯盟的成員可以搶佔的市場份額很大,但他們將通過從系統中移除收入來搶佔,就像 Linux 對 Unix 所做的那樣,而不是將收入從一種技術轉換爲另一種技術,其中節省下來的資金將重新投入到 GPU 中。

挑戰英偉達

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論