share_log

谷歌芯片,全球第三了

谷歌芯片,全球第三了

半導體行業觀察 ·  05/23 08:22

來源:內容由半導體行業觀察(ID:icbank)編譯自techspot。

儘管谷歌是一家無晶圓廠設計公司,不向第三方公司出售芯片,但它是數據中心處理器業務中真正的巨頭。山景城公司擁有重要的市場份額,由於最近人工智能的爆炸式增長,該市場份額有望進一步擴大。

Tech Insights 發佈的新研究將谷歌評爲數據中心領域最大的芯片設計公司之一。Tech Insights表示,憑藉其在半導體供應鏈和 ASIC 市場等多個領域的獨特專業知識,谷歌的市場份額可與英特爾和 AMD 等更知名的芯片製造商相媲美。

Tech Insights強調,谷歌在 2015 年推出的張量處理單元 ( TPU ) 開創了定製人工智能加速器的先河,這使得該公司超越了雲競爭對手微軟和亞馬遜。就市場份額而言,只有英偉達和英特爾超越谷歌。

Tech Insights指出,谷歌去年向其全球數據中心運送了 200 萬個 TPU。隨着 TPU v4 的推出,該業務在 2021 年實現了顯着增長,恰逢大型語言模型的興起。Broadcom 是 Google 在 ASIC 設計方面的主要合作伙伴,它可能從 TPU v4 的推出中受益最多。

谷歌使用 TPU 來加速內部工作負載,而 Nvidia GPU 則處理雲計算任務。Tech Insights報告稱,到 2023 年,谷歌將擁有最大的 AI 加速器安裝基數和最大的 AI 計算基礎設施。該公司最近推出了第六代 TPU,稱爲Trillium,旨在增強 AI 超級計算機架構。

TI 還指出,隨着雲超大規模企業投資新的加速器和 Nvidia AI GPU,去年服務器市場的庫存出現了重大調整。微軟和亞馬遜還分別使用 Azure Cobalt 和 Graviton 開發定製人工智能加速器。

Azure Cobalt 和 Graviton 都是基於 Arm 的定製處理器。谷歌最近推出了基於 Arm 的 Axion 處理器來補充其 TPU。根據 Bernstein Research 的報告,Arm 架構目前已用於全球 10% 的服務器,其中超過 50% 安裝在亞馬遜的 AWS 數據中心。

谷歌的第六代TPU

5 月 14 日星期二,谷歌發佈了名爲 Trillium 的第六代 TPU(張量處理單元)。

該芯片本質上是 TPU v6,是該公司在與 GPU 製造商英偉達以及雲提供商微軟和亞馬遜(擁有自己的人工智能芯片)的人工智能戰鬥中的最新武器。

TPU v6 將繼承 TPUv5 芯片,TPUv5 芯片有兩種版本:TPUv5e 和 TPUv5p。該公司表示,Trillium 芯片是“迄今爲止性能最高、最節能的 TPU” 。“

谷歌在加州山景城舉行的 IO 會議上表示,Trillium 芯片將運行的人工智能模型將取代當前的 Gemini 大語言模型。

谷歌對該芯片進行了全方位的改進。該芯片的峯值計算性能提高了 4.7 倍。它還使高帶寬內存、內部帶寬和芯片間互連速度加倍。

谷歌發言人在給 HPCwire 的電子郵件中表示:“通過比較 Trillium TPU 與 Cloud TPU v5e 的每芯片峯值計算性能 (bf16),我們得到了 4.7 倍的數字。”

BF16 在 TPU v5e 上的性能爲 197 teraflops,如果提高 4.7 倍,BF16 在 Trillium 上的峯值性能將達到 925.9 teraflops。

Google 的 TPU 早就應該有大幅的性能提升了。TPU v5e 的 197 萬億次浮點 BF16 性能實際上比 TPU v4 的 275 萬億次浮點有所下降。

Trillium 芯片具有下一代 HBM 內存,但沒有具體說明它是 HBM3 還是 HBM3e,Nvidia 在其 H200 和 Blackwell GPU 中使用了 HBM3e。

TPU v5e 上的 HBM2 容量爲 16GB,因此 Trillium 將擁有 32GB 的容量,HBM3 和 HBM3e 均有提供。HBM3e 提供最大的帶寬。

服務器 Pod 中最多可配對 256 個 Trillium 芯片,與  TPU v5e 相比,芯片間通信提高了一倍。谷歌沒有透露芯片間通信速度,但 可能是 3,200 Gbps,是 TPU v5e 1,600 Gbps 的兩倍。

谷歌在一篇博客文章中表示,Trillium TPU 的節能效果也比 TPU v5e 高出 67%。

Trillium 正在取代 TPU 品牌名稱,並將成爲未來幾代芯片背後的品牌。Trillium 是根據花的名字命名的,不要與 AWS 的 Trainium 混淆,Trainium 是一種人工智能訓練芯片。

谷歌很快就發佈了其第六代 TPU——距離該公司發佈 TPU v5 芯片還不到一年。

TPU v4 於 2020 年推出 ,拖了 三年才發佈 TPU v5。TPU  v5 本身的開發也陷入了爭議之中。

谷歌聲稱,人工智能代理幫助 TPU v5 芯片進行平面規劃,速度比人類專家快約六個小時。

與 TPU v5 AI 設計項目相關的研究人員被解僱或離職,這些說法目前正在接受《自然》雜誌的調查。

服務器 Pod 將託管 256 個 Trillium 芯片,  AI 芯片的通信速度是類似 TPU v5 Pod 設置的兩倍。

這些Pod可以組合成更大的集群, 並通過光纖網絡 進行通信。艙體之間的通信速度 也將提高兩倍,從而提供更大的 AI 模型所需的可擴展 性 。

谷歌表示:“Trillium TPU 可以擴展到數百個 Pod,通過每秒數拍比特的數據中心網絡互連建築級超級計算機中的數萬個芯片。”

一項名爲 Multislice 的技術將大型 AI 工作負載串聯到大型集群中的數千個 TPU 上。這確保了 TPU 的高正常運行時間和能效。

該芯片具有第三代 SparseCores,這是一種更接近高帶寬內存的中間芯片, 大多數 AI 運算都在這裏進行。

SparseCores 使處理更接近內存中的數據, 支持 AMD、英特爾和高通正在研究的新興計算架構。

通常,數據必須從內存移動到處理單元,這會消耗帶寬併產生阻塞點。稀疏計算模型試圖通過將處理單元移近內存集群來釋放網絡帶寬。

谷歌表示:“Trillium TPU 可以更快地訓練下一波基礎模型,並以更少的延遲和更低的成本爲這些模型提供服務。”

Trillium 還具有用於矩陣數學的 TensorCore。Trillium 芯片是爲人工智能設計的,不會運行科學應用程序。

該公司最近發佈了首款 CPU Axion,它將與 Trillium 搭配使用。

Trillium 芯片將成爲谷歌自主研發的 Hypercomputer AI 超級計算機設計的一部分,該設計針對其 TPU 進行了優化。

該設計融合了計算、網絡、存儲和軟件,以滿足不同的 AI 消費和調度模型。“日曆”系統滿足任務何時開始的嚴格期限,而“彈性啓動”模型則保證任務何時結束並交付結果。

超級計算機包含一個軟件堆棧和其他工具,用於開發、優化、部署和編排用於推理和訓練的 AI 模型。其中 包括 JAX、PyTorch/XLA 和 Kubernetes。

超級計算機將繼續使用針對 GPU 優化的互連技術,例如基於 Nvidia H100 GPU 的 Titanium 卸載系統和技術。

預計 Trillium 芯片將在 Google Cloud 中提供,但谷歌沒有提供提供日期。它將成爲頂級產品,成本高於 TPU v5 產品。

雲中 GPU 的高價格可能會讓 Trillium 對客戶有吸引力。已經使用 Vertex(Google Cloud 中的 AI 平台)中提供的 AI 模型的客戶也可能會轉向 Trillium。

AWS 的 Trainium 芯片也可用,而微軟的 Azure Maia 芯片主要用於推理。

谷歌一直將其 TPU 作爲 Nvidia GPU 的 AI 替代品。谷歌發佈了研究論文,將 TPU 的性能與同類 Nvidia GPU 進行了比較。

谷歌最近宣佈將搭載 Nvidia 的新 GPU、B200 和帶有 Blackwell GPU 的專用 DGX 盒。

Nvidia 最近還宣佈將以 7 億美元收購 Run.ai。收購 Run.ai 將使 Nvidia 在運行 AI 模型時能夠使其軟件堆棧獨立於 Google 的堆棧。

TPU 最初是爲谷歌的本土模型設計的,但該公司正在努力 更好地 映射到開源模型,其中包括 Gemini 的分支 Gemma。

參考鏈接

點這裏 加關注,鎖定更多原創內容

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論