share_log

AI芯片大战升级!各大科技厂商到底拥有多少GPU?

AI芯片大戰升級!各大科技廠商到底擁有多少GPU?

半導體行業觀察 ·  12/24 16:43

來源:半導體行業觀察

根據 Omdia 的估計,$英偉達 (NVDA.US)$ 在 2024 年佔據了人工智能領域的主導地位,其 Hopper GPU 在其 12 大客戶的出貨量將增長兩倍多,達到 200 多萬台。

然而,儘管 Nvidia 仍然是 AI 基礎設施巨頭,但它正面臨着來自競爭對手 $美國超微公司 (AMD.US)$ 的激烈競爭。在早期採用其 Instinct MI300 系列 GPU 的公司中,AMD 的市場份額正在迅速擴大。

Omdia 估計,$微軟 (MSFT.US)$在 2024 年購買了約 581,000 塊 GPU,是全球所有云或超大規模客戶中購買量最大的。其中,六分之一由 AMD 製造。

根據 Omdia 的調查結果,在 Meta(迄今爲止對剛推出一年的加速器最熱衷的採用者)中,AMD 佔據了 GPU 出貨量的 43%,爲 173,000 塊,而 Nvidia 的出貨量爲 224,000 塊。與此同時,在 $甲骨文 (ORCL.US)$,AMD 佔據了這家數據庫巨頭 163,000 塊 GPU 出貨量的 23%。

到 2024 年,Nvidia 仍然是 AI 硬件的主要供應商
到 2024 年,Nvidia 仍然是 AI 硬件的主要供應商

儘管在微軟和 $Meta Platforms (META.US)$ 等主要客戶中的份額不斷增長,但 AMD 在更廣泛的 GPU 市場中的份額與 Nvidia 相比仍然相對較小。

Omdia 的估計追蹤了四家供應商(微軟、Meta、$甲骨文 (4716.JP)$(4716.JP)和 GPU bit barn TensorWave)的 MI300X 出貨量,總計 327,000 台。

AMD 的 MI2024X 出貨量仍是 Nvidia 的一小部分。
AMD 的 MI2024X 出貨量仍是 Nvidia 的一小部分。

AMD 的 MI300 系列加速器上市才一年,因此其發展速度同樣引人注目。在此之前,AMD 的 GPU 主要用於更傳統的高性能計算應用,例如橡樹嶺國家實驗室 (ORNL) 的 1.35 exaFLOPS Frontier 超級計算機。

Omdia 雲計算和數據中心研究總監 Vladimir Galabov 向The Register表示:「他們去年成功地通過 HPC 領域證明了 GPU 的有效性,我認爲這很有幫助。我確實認爲人們渴望找到 Nvidia 的替代品。」

爲什麼選擇 AMD?

這種需求在多大程度上是由 Nvidia 硬件供應有限所導致的很難說,但至少從紙面上看,AMD 的 MI300X 加速器提供了許多優勢。MI300X 於一年前推出,聲稱其AI 工作負載浮點性能比老牌 H100 高 1.3 倍,內存帶寬高 60%,容量高 2.4 倍。

後兩點使得該部件對於推理工作負載特別有吸引力,其性能通常取決於內存的數量和速度,而不是 GPU 可以拋出多少 FLOPS。

一般來說,當今大多數 AI 模型都是以 16 位精度進行訓練的,這意味着爲了運行它們,每 10 億個參數需要大約 2 GB 的 vRAM。每台 GPU 配備 192 GB 的 HBM3,單台服務器擁有 1.5 TB 的 vRAM。這意味着大型模型(如 Meta 的 Llama 3.1 405B 前沿模型)可以在單個節點上運行。另一方面,配備類似設備的 H100 節點缺乏以全分辨率運行模型所需的內存。141 GB 的 H200 不受同樣的限制,但容量並不是 MI300X 的唯一亮點。

MI300X 擁有 5.3 TBps 的內存帶寬,而 H100 爲 3.3 TBps,141 GB H200 爲 4.8 TBps。總而言之,這意味着 MI300X 理論上應該能夠比 Nvidia 的 Hopper GPU 更快地爲更大的模型提供服務。

儘管 Nvidia 的 Blackwell 才剛剛開始面向客戶推出,但在性能和內存帶寬方面遙遙領先,AMD 的新款 MI325X 仍然以每 GPU 256 GB 的容量優勢佔據優勢。其功能更強大的 MI355X 將於明年年底發佈,將容量提升至 288 GB。

因此,微軟和 Meta 都選擇 AMD 的加速器也就不足爲奇了,這兩家公司都在部署數千億甚至數萬億個參數的大型前沿模型。

Galabov 指出,這一點已反映在 AMD 的業績指引中,該指引每個季度都在穩步上升。截至第三季度,AMD 現在預計 Instinct 將在 2024 財年帶來 50 億美元的收入。

進入新的一年,Galabov 相信 AMD 有機會獲得更多的市場份額。「AMD 執行力強。它與客戶溝通良好,善於透明地談論自己的優勢和劣勢,」他說。

一個潛在的驅動因素是 GPU 比特庫的出現,例如 CoreWeave,它們每年部署數萬台加速器。Galabov 表示:「其中一些公司會刻意嘗試圍繞 Nvidia 替代方案建立商業模式」,他指出 TensorWave 就是其中一個例子。

定製AI芯片大步前進

不僅僅是 AMD 在蠶食 Nvidia 的帝國。在雲計算和超大規模企業大量購買 GPU 的同時,許多企業也在部署自己的定製 AI 芯片。

雲提供商在 2024 年部署了大量定製 AI 芯片,但重要的是要記住,並非所有這些部分都是爲 GenAI 設計的。
雲提供商在 2024 年部署了大量定製 AI 芯片,但重要的是要記住,並非所有這些部分都是爲 GenAI 設計的。

Omdia 估計,Meta 定製 MTIA 加速器的出貨量(我們在今年早些時候對其進行了更詳細的研究)將在 2024 年達到 150 萬台,而$亞馬遜 (AMZN.US)$則訂購了 90 萬台 Inferentia 芯片。

這是否對 Nvidia 構成挑戰在很大程度上取決於工作量。這是因爲這些部件旨在運行更傳統的機器學習任務,例如用於將廣告與用戶匹配、將產品與買家匹配的推薦系統。

雖然 Inferentia 和 MTIA 在設計時可能並未考慮到 LLM,但谷歌的 TPU 肯定曾被用於訓練該搜索巨頭的許多語言模型,包括其專有的 Gemini 和開放的 Gemma 模型。

據Omdia所知,谷歌今年訂購了約一百萬個TPU v5e和48萬個TPU v5p加速器。

除了 Inferentia,AWS 還擁有 Trainium 芯片,儘管名稱如此,但這些芯片已針對訓練和推理工作負載進行了重新調整。Omdia 估計,到 2024 年,亞馬遜將訂購約 366,000 個此類部件。這與其Rainier 項目計劃相一致,該項目將在 2025 年爲模型構建者 Anthropic 提供「數十萬」個 Trainium2 加速器。

最後還有微軟的 MAIA 部件,這些部件在 AMD 推出 MI300X 前不久首次亮相。與 Trainium 類似,這些部件針對推理和訓練進行了調整,微軟作爲 OpenAI 的主要硬件合作伙伴和模型構建者,顯然在這方面做得不錯。Omdia 認爲微軟在 2024 年訂購了大約 198,000 個此類部件。

人工智能市場比硬件更大

過去兩年中,英偉達的巨額營收增長理所當然地讓人們關注到了人工智能背後的基礎設施,但這只是一個更大謎團中的一塊碎片。

Omdia 預計,隨着 AMD、 $英特爾 (INTC.US)$ 和雲服務提供商推出替代硬件和服務,Nvidia 將在未來一年努力擴大其在 AI 服務器市場的份額。

「如果我們從英特爾身上學到了什麼,那就是一旦市場份額達到 90% 以上,就不可能繼續增長。人們會立即尋找替代方案,」Galabov 說道。

然而,Galabov 懷疑,Nvidia 不會在競爭日益激烈的市場中爭奪份額,而是會專注於通過讓技術更容易獲得來擴大整個潛在市場。

Nvidia 推理微服務 (NIM) 的引入只是這一轉變的一個例子,NIM 是一種容器化模型,其功能類似於構建複雜 AI 系統的拼圖。

「這是史蒂夫·喬布斯的策略。智能手機的成功歸功於應用商店。因爲它讓技術更容易使用,」Galabov 談到 NIM 時說道。「人工智能也是如此;建立一個應用商店,人們就會下載並使用它。」

話雖如此,Nvidia 仍然扎根於硬件。雲提供商、超大規模計算提供商和 GPU 比特庫已經宣佈基於 Nvidia 強大的新型 Blackwell 加速器打造大規模集群,至少在性能方面,該加速器遠遠領先於 AMD 或英特爾目前提供的任何產品。

與此同時,Nvidia 加快了其產品路線圖,以支持每年推出新芯片的節奏,從而保持領先地位。看來,儘管 Nvidia 將繼續面臨來自競爭對手的激烈競爭,但它短期內不會失去王冠。

編輯/Rocky

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論