来源:半导体行业观察
根据 Omdia 的估计,$英伟达 (NVDA.US)$ 在 2024 年占据了人工智能领域的主导地位,其 Hopper GPU 在其 12 大客户的出货量将增长两倍多,达到 200 多万台。
然而,尽管 Nvidia 仍然是 AI 基础设施巨头,但它正面临着来自竞争对手 $美国超微公司 (AMD.US)$ 的激烈竞争。在早期采用其 Instinct MI300 系列 GPU 的公司中,AMD 的市场份额正在迅速扩大。
Omdia 估计,$微软 (MSFT.US)$在 2024 年购买了约 581,000 块 GPU,是全球所有云或超大规模客户中购买量最大的。其中,六分之一由 AMD 制造。
根据 Omdia 的调查结果,在 Meta(迄今为止对刚推出一年的加速器最热衷的采用者)中,AMD 占据了 GPU 出货量的 43%,为 173,000 块,而 Nvidia 的出货量为 224,000 块。与此同时,在 $甲骨文 (ORCL.US)$,AMD 占据了这家数据库巨头 163,000 块 GPU 出货量的 23%。
尽管在微软和 $Meta Platforms (META.US)$ 等主要客户中的份额不断增长,但 AMD 在更广泛的 GPU 市场中的份额与 Nvidia 相比仍然相对较小。
Omdia 的估计追踪了四家供应商(微软、Meta、$甲骨文 (4716.JP)$(4716.JP)和 GPU bit barn TensorWave)的 MI300X 出货量,总计 327,000 台。
AMD 的 MI300 系列加速器上市才一年,因此其发展速度同样引人注目。在此之前,AMD 的 GPU 主要用于更传统的高性能计算应用,例如橡树岭国家实验室 (ORNL) 的 1.35 exaFLOPS Frontier 超级计算机。
Omdia 云计算和数据中心研究总监 Vladimir Galabov 向The Register表示:“他们去年成功地通过 HPC 领域证明了 GPU 的有效性,我认为这很有帮助。我确实认为人们渴望找到 Nvidia 的替代品。”
为什么选择 AMD?
这种需求在多大程度上是由 Nvidia 硬件供应有限所导致的很难说,但至少从纸面上看,AMD 的 MI300X 加速器提供了许多优势。MI300X 于一年前推出,声称其AI 工作负载浮点性能比老牌 H100 高 1.3 倍,内存带宽高 60%,容量高 2.4 倍。
后两点使得该部件对于推理工作负载特别有吸引力,其性能通常取决于内存的数量和速度,而不是 GPU 可以抛出多少 FLOPS。
一般来说,当今大多数 AI 模型都是以 16 位精度进行训练的,这意味着为了运行它们,每 10 亿个参数需要大约 2 GB 的 vRAM。每台 GPU 配备 192 GB 的 HBM3,单台服务器拥有 1.5 TB 的 vRAM。这意味着大型模型(如 Meta 的 Llama 3.1 405B 前沿模型)可以在单个节点上运行。另一方面,配备类似设备的 H100 节点缺乏以全分辨率运行模型所需的内存。141 GB 的 H200 不受同样的限制,但容量并不是 MI300X 的唯一亮点。
MI300X 拥有 5.3 TBps 的内存带宽,而 H100 为 3.3 TBps,141 GB H200 为 4.8 TBps。总而言之,这意味着 MI300X 理论上应该能够比 Nvidia 的 Hopper GPU 更快地为更大的模型提供服务。
尽管 Nvidia 的 Blackwell 才刚刚开始面向客户推出,但在性能和内存带宽方面遥遥领先,AMD 的新款 MI325X 仍然以每 GPU 256 GB 的容量优势占据优势。其功能更强大的 MI355X 将于明年年底发布,将容量提升至 288 GB。
因此,微软和 Meta 都选择 AMD 的加速器也就不足为奇了,这两家公司都在部署数千亿甚至数万亿个参数的大型前沿模型。
Galabov 指出,这一点已反映在 AMD 的业绩指引中,该指引每个季度都在稳步上升。截至第三季度,AMD 现在预计 Instinct 将在 2024 财年带来 50 亿美元的收入。
进入新的一年,Galabov 相信 AMD 有机会获得更多的市场份额。“AMD 执行力强。它与客户沟通良好,善于透明地谈论自己的优势和劣势,”他说。
一个潜在的驱动因素是 GPU 比特库的出现,例如 CoreWeave,它们每年部署数万台加速器。Galabov 表示:“其中一些公司会刻意尝试围绕 Nvidia 替代方案建立商业模式”,他指出 TensorWave 就是其中一个例子。
定制AI芯片大步前进
不仅仅是 AMD 在蚕食 Nvidia 的帝国。在云计算和超大规模企业大量购买 GPU 的同时,许多企业也在部署自己的定制 AI 芯片。
Omdia 估计,Meta 定制 MTIA 加速器的出货量(我们在今年早些时候对其进行了更详细的研究)将在 2024 年达到 150 万台,而$亚马逊 (AMZN.US)$则订购了 90 万台 Inferentia 芯片。
这是否对 Nvidia 构成挑战在很大程度上取决于工作量。这是因为这些部件旨在运行更传统的机器学习任务,例如用于将广告与用户匹配、将产品与买家匹配的推荐系统。
虽然 Inferentia 和 MTIA 在设计时可能并未考虑到 LLM,但谷歌的 TPU 肯定曾被用于训练该搜索巨头的许多语言模型,包括其专有的 Gemini 和开放的 Gemma 模型。
据Omdia所知,谷歌今年订购了约一百万个TPU v5e和48万个TPU v5p加速器。
除了 Inferentia,AWS 还拥有 Trainium 芯片,尽管名称如此,但这些芯片已针对训练和推理工作负载进行了重新调整。Omdia 估计,到 2024 年,亚马逊将订购约 366,000 个此类部件。这与其Rainier 项目计划相一致,该项目将在 2025 年为模型构建者 Anthropic 提供“数十万”个 Trainium2 加速器。
最后还有微软的 MAIA 部件,这些部件在 AMD 推出 MI300X 前不久首次亮相。与 Trainium 类似,这些部件针对推理和训练进行了调整,微软作为 OpenAI 的主要硬件合作伙伴和模型构建者,显然在这方面做得不错。Omdia 认为微软在 2024 年订购了大约 198,000 个此类部件。
人工智能市场比硬件更大
过去两年中,英伟达的巨额营收增长理所当然地让人们关注到了人工智能背后的基础设施,但这只是一个更大谜团中的一块碎片。
Omdia 预计,随着 AMD、 $英特尔 (INTC.US)$ 和云服务提供商推出替代硬件和服务,Nvidia 将在未来一年努力扩大其在 AI 服务器市场的份额。
“如果我们从英特尔身上学到了什么,那就是一旦市场份额达到 90% 以上,就不可能继续增长。人们会立即寻找替代方案,”Galabov 说道。
然而,Galabov 怀疑,Nvidia 不会在竞争日益激烈的市场中争夺份额,而是会专注于通过让技术更容易获得来扩大整个潜在市场。
Nvidia 推理微服务 (NIM) 的引入只是这一转变的一个例子,NIM 是一种容器化模型,其功能类似于构建复杂 AI 系统的拼图。
“这是史蒂夫·乔布斯的策略。智能手机的成功归功于应用商店。因为它让技术更容易使用,”Galabov 谈到 NIM 时说道。“人工智能也是如此;建立一个应用商店,人们就会下载并使用它。”
话虽如此,Nvidia 仍然扎根于硬件。云提供商、超大规模计算提供商和 GPU 比特库已经宣布基于 Nvidia 强大的新型 Blackwell 加速器打造大规模集群,至少在性能方面,该加速器远远领先于 AMD 或英特尔目前提供的任何产品。
与此同时,Nvidia 加快了其产品路线图,以支持每年推出新芯片的节奏,从而保持领先地位。看来,尽管 Nvidia 将继续面临来自竞争对手的激烈竞争,但它短期内不会失去王冠。
编辑/Rocky
來源:半導體行業觀察
根據 Omdia 的估計,$英偉達 (NVDA.US)$ 在 2024 年佔據了人工智能領域的主導地位,其 Hopper GPU 在其 12 大客戶的出貨量將增長兩倍多,達到 200 多萬台。
然而,儘管 Nvidia 仍然是 AI 基礎設施巨頭,但它正面臨着來自競爭對手 $美國超微公司 (AMD.US)$ 的激烈競爭。在早期採用其 Instinct MI300 系列 GPU 的公司中,AMD 的市場份額正在迅速擴大。
Omdia 估計,$微軟 (MSFT.US)$在 2024 年購買了約 581,000 塊 GPU,是全球所有云或超大規模客戶中購買量最大的。其中,六分之一由 AMD 製造。
根據 Omdia 的調查結果,在 Meta(迄今爲止對剛推出一年的加速器最熱衷的採用者)中,AMD 佔據了 GPU 出貨量的 43%,爲 173,000 塊,而 Nvidia 的出貨量爲 224,000 塊。與此同時,在 $甲骨文 (ORCL.US)$,AMD 佔據了這家數據庫巨頭 163,000 塊 GPU 出貨量的 23%。
儘管在微軟和 $Meta Platforms (META.US)$ 等主要客戶中的份額不斷增長,但 AMD 在更廣泛的 GPU 市場中的份額與 Nvidia 相比仍然相對較小。
Omdia 的估計追蹤了四家供應商(微軟、Meta、$甲骨文 (4716.JP)$(4716.JP)和 GPU bit barn TensorWave)的 MI300X 出貨量,總計 327,000 台。
AMD 的 MI300 系列加速器上市才一年,因此其發展速度同樣引人注目。在此之前,AMD 的 GPU 主要用於更傳統的高性能計算應用,例如橡樹嶺國家實驗室 (ORNL) 的 1.35 exaFLOPS Frontier 超級計算機。
Omdia 雲計算和數據中心研究總監 Vladimir Galabov 向The Register表示:「他們去年成功地通過 HPC 領域證明了 GPU 的有效性,我認爲這很有幫助。我確實認爲人們渴望找到 Nvidia 的替代品。」
爲什麼選擇 AMD?
這種需求在多大程度上是由 Nvidia 硬件供應有限所導致的很難說,但至少從紙面上看,AMD 的 MI300X 加速器提供了許多優勢。MI300X 於一年前推出,聲稱其AI 工作負載浮點性能比老牌 H100 高 1.3 倍,內存帶寬高 60%,容量高 2.4 倍。
後兩點使得該部件對於推理工作負載特別有吸引力,其性能通常取決於內存的數量和速度,而不是 GPU 可以拋出多少 FLOPS。
一般來說,當今大多數 AI 模型都是以 16 位精度進行訓練的,這意味着爲了運行它們,每 10 億個參數需要大約 2 GB 的 vRAM。每台 GPU 配備 192 GB 的 HBM3,單台服務器擁有 1.5 TB 的 vRAM。這意味着大型模型(如 Meta 的 Llama 3.1 405B 前沿模型)可以在單個節點上運行。另一方面,配備類似設備的 H100 節點缺乏以全分辨率運行模型所需的內存。141 GB 的 H200 不受同樣的限制,但容量並不是 MI300X 的唯一亮點。
MI300X 擁有 5.3 TBps 的內存帶寬,而 H100 爲 3.3 TBps,141 GB H200 爲 4.8 TBps。總而言之,這意味着 MI300X 理論上應該能夠比 Nvidia 的 Hopper GPU 更快地爲更大的模型提供服務。
儘管 Nvidia 的 Blackwell 才剛剛開始面向客戶推出,但在性能和內存帶寬方面遙遙領先,AMD 的新款 MI325X 仍然以每 GPU 256 GB 的容量優勢佔據優勢。其功能更強大的 MI355X 將於明年年底發佈,將容量提升至 288 GB。
因此,微軟和 Meta 都選擇 AMD 的加速器也就不足爲奇了,這兩家公司都在部署數千億甚至數萬億個參數的大型前沿模型。
Galabov 指出,這一點已反映在 AMD 的業績指引中,該指引每個季度都在穩步上升。截至第三季度,AMD 現在預計 Instinct 將在 2024 財年帶來 50 億美元的收入。
進入新的一年,Galabov 相信 AMD 有機會獲得更多的市場份額。「AMD 執行力強。它與客戶溝通良好,善於透明地談論自己的優勢和劣勢,」他說。
一個潛在的驅動因素是 GPU 比特庫的出現,例如 CoreWeave,它們每年部署數萬台加速器。Galabov 表示:「其中一些公司會刻意嘗試圍繞 Nvidia 替代方案建立商業模式」,他指出 TensorWave 就是其中一個例子。
定製AI芯片大步前進
不僅僅是 AMD 在蠶食 Nvidia 的帝國。在雲計算和超大規模企業大量購買 GPU 的同時,許多企業也在部署自己的定製 AI 芯片。
Omdia 估計,Meta 定製 MTIA 加速器的出貨量(我們在今年早些時候對其進行了更詳細的研究)將在 2024 年達到 150 萬台,而$亞馬遜 (AMZN.US)$則訂購了 90 萬台 Inferentia 芯片。
這是否對 Nvidia 構成挑戰在很大程度上取決於工作量。這是因爲這些部件旨在運行更傳統的機器學習任務,例如用於將廣告與用戶匹配、將產品與買家匹配的推薦系統。
雖然 Inferentia 和 MTIA 在設計時可能並未考慮到 LLM,但谷歌的 TPU 肯定曾被用於訓練該搜索巨頭的許多語言模型,包括其專有的 Gemini 和開放的 Gemma 模型。
據Omdia所知,谷歌今年訂購了約一百萬個TPU v5e和48萬個TPU v5p加速器。
除了 Inferentia,AWS 還擁有 Trainium 芯片,儘管名稱如此,但這些芯片已針對訓練和推理工作負載進行了重新調整。Omdia 估計,到 2024 年,亞馬遜將訂購約 366,000 個此類部件。這與其Rainier 項目計劃相一致,該項目將在 2025 年爲模型構建者 Anthropic 提供「數十萬」個 Trainium2 加速器。
最後還有微軟的 MAIA 部件,這些部件在 AMD 推出 MI300X 前不久首次亮相。與 Trainium 類似,這些部件針對推理和訓練進行了調整,微軟作爲 OpenAI 的主要硬件合作伙伴和模型構建者,顯然在這方面做得不錯。Omdia 認爲微軟在 2024 年訂購了大約 198,000 個此類部件。
人工智能市場比硬件更大
過去兩年中,英偉達的巨額營收增長理所當然地讓人們關注到了人工智能背後的基礎設施,但這只是一個更大謎團中的一塊碎片。
Omdia 預計,隨着 AMD、 $英特爾 (INTC.US)$ 和雲服務提供商推出替代硬件和服務,Nvidia 將在未來一年努力擴大其在 AI 服務器市場的份額。
「如果我們從英特爾身上學到了什麼,那就是一旦市場份額達到 90% 以上,就不可能繼續增長。人們會立即尋找替代方案,」Galabov 說道。
然而,Galabov 懷疑,Nvidia 不會在競爭日益激烈的市場中爭奪份額,而是會專注於通過讓技術更容易獲得來擴大整個潛在市場。
Nvidia 推理微服務 (NIM) 的引入只是這一轉變的一個例子,NIM 是一種容器化模型,其功能類似於構建複雜 AI 系統的拼圖。
「這是史蒂夫·喬布斯的策略。智能手機的成功歸功於應用商店。因爲它讓技術更容易使用,」Galabov 談到 NIM 時說道。「人工智能也是如此;建立一個應用商店,人們就會下載並使用它。」
話雖如此,Nvidia 仍然扎根於硬件。雲提供商、超大規模計算提供商和 GPU 比特庫已經宣佈基於 Nvidia 強大的新型 Blackwell 加速器打造大規模集群,至少在性能方面,該加速器遠遠領先於 AMD 或英特爾目前提供的任何產品。
與此同時,Nvidia 加快了其產品路線圖,以支持每年推出新芯片的節奏,從而保持領先地位。看來,儘管 Nvidia 將繼續面臨來自競爭對手的激烈競爭,但它短期內不會失去王冠。
編輯/Rocky