share_log

谷歌云计算,用了哪些芯片?

谷歌雲計算,用了哪些芯片?

半導體行業觀察 ·  11/06 10:11

如果您希望可以時常見面,歡迎標星 收藏哦~

來源:內容編譯自hpcwire,謝謝。

谷歌雲計算正在迎來大量硬件,該公司正在進行重大升級,準備在明年將 Nvidia 的 Blackwell GPU 納入旗下。

10 月下旬宣佈的升級包括其名爲 Trillium 的新 TPU、自主研發的 Axion CPU 和 Nvidia 的新 H200 GPU 的預覽。

新硬件被輸入到谷歌的「超級計算機」中,這是一臺遍佈谷歌雲基礎設施的大型超級計算機。它包括一套適用於多種工作負載的多樣化軟件和芯片產品。

谷歌在系統和軟件層面重新考慮了其基礎設施,爲硬件和軟件提供了一個通用層。

這也催生了谷歌的超級計算機,它支持傳統計算和現代計算。它融合了計算、網絡、存儲和軟件,以滿足不同的 AI 和 HPC 消費模式。

谷歌副總裁兼計算和人工智能基礎設施總經理 Mark Lohmeyer 在一篇博文中表示,該公司在 10 月下旬還分享了人工智能超級計算機的概念,它「集成了工作負載優化的硬件(TPU、GPU 和 CPU)、開放軟件和靈活的消費模型,爲最先進的人工智能模型提供支持」。

Lohmeyer 對 Google Cloud 運作方式的技術願景類似於 Google 公司的精神——歡迎所有硬件和軟件,爲其提供用戶友好的工具,並提供一系列消費選項。

一款名爲 Hypercompute Cluster 的新產品就是按照這個思路建立起來的,它是一種高度可擴展的集群系統。超級計算領域正在努力平衡傳統的高精度計算和人工智能猜測,因此 Hypercompute Cluster 處理各種工作負載的能力可以彌補模擬和科學計算之間的差距。

Lohmeyer 表示,該集群將結合谷歌的人工智能基礎設施技術,「無縫部署和管理大量加速器作爲一個單元」。

密集託管功能將多個資源聚集在一起,吞吐量高,因此工作負載可以快速可靠地完成。此功能對於科學計算和 AI 都很重要。

Google 的目標是爲超級計算機所執行的任務提供保障。例如,Google 希望通過其消費模型爲時間和結果帶來可靠性和靈活性。

在軟件和硬件層構建硬件和虛擬化層可能很複雜,但 Google 可以通過在 Google Cloud 上進行預配置部署的單一 API 調用使其變得簡單。

科學家可以選擇一個環境,將集群部署到 Google Cloud,並選擇節點數量、CPU 或 GPU 核心以及內存。

Lohmeyer 解釋說:「這包括具有框架和參考實現的容器化軟件(例如 JAX、PyTorch、MaxText)、編排(例如 GKE、Slurm)以及流行的開放模型(例如 Gemma2 和 Llama3)。」

此功能使 HPC 堆棧的部署變得更容易,因爲部署 HPC 堆棧可能相當複雜,因爲它們涉及管理硬件和軟件。藉助 Google Cloud 管理硬件和軟件資源,具有技術知識的創意科學家可以確定使用開源 AI 模型補充科學計算的方法。

當全世界都在追求 Nvidia GPU 時,谷歌也爲客戶提供了更快速、更具成本效益的替代方案來完成他們的 AI 工作。

Google 將 Trillium TPU 添加到其雲產品中,該產品現已推出預覽版。在 Google I/O 大會上發佈的 Trillium TPU 可以擴展到大規模集群,爲 Nvidia GPU 提供替代方案,用於訓練 AI 模型並縮小規模以進行推理。Trillium 是 TPUv5 產品的後繼者。

Trillium 芯片將能夠運行繼當前 Gemini 大型語言模型之後的 AI 模型。谷歌聲稱,通過比較 BF16 與 Cloud TPU v5e 的每芯片峯值計算性能,Trillium 的速度提高了 4.7 倍。

Trillium 芯片擁有下一代 HBM 內存,但谷歌並未具體說明它擁有的是 HBM3 還是 HBM3e,Nvidia 在其 H200 和 Blackwell GPU 中使用了後者。TPU v5e 上的 HBM2 容量爲 16GB,因此 Trillium 將擁有 32GB 的容量,HBM3 和 HBM3e 均有提供。HBM3e 提供最大的帶寬。

服務器艙可承載 256 個 Trillium 芯片,AI 芯片的通信速度將比類似的 TPU v5 艙設置快 2 倍。這些艙可排列成更大的集群,並通過 Jupiter 光路交換網絡結構進行通信,該結構可提供 400 Gb/s 的帶寬。

谷歌還增加了其自主研發的 Axion CPU,該公司表示,與同類當前基於 x86 的通用工作負載實例相比,該 CPU 可提供「高達 65% 的性價比和高達 60% 的能效」。

Axion CPU 基於 ARMv9 架構和指令集。

Axion 融入了名爲 Titanium 的核心基礎設施技術,該技術通過各種技術承擔大部分計算工作負載,包括定製硅片、網絡、基礎設施處理單元和塊存儲。這些技術減輕了 AI 加速器和 CPU 的負載。

Titanium 也得到了升級。谷歌宣佈推出搭載 Nvidia H200 Tensor Core GPU 和全新 Titanium ML 網絡適配器的 A3 Ultra VM,該適配器經過優化,可爲「AI 工作負載提供安全、高性能的雲體驗」,谷歌表示。

谷歌發言人在一封電子郵件中表示,Titanium ML 網絡適配器「包含並構建在」Nvidia 的 ConnectX-7 NIC 上,當與數據中心範圍的 4 向軌道對齊網絡集成時,可以通過 RoCE 提供 3.2 Tbps 的 GPU 到 GPU 流量。

谷歌在一封電子郵件中表示,超級計算集群將從 A3 Ultra VM 開始提供。

Google Cloud 的理想情況是客戶啓動 AI 工作負載,從而充分利用多個加速器。然而,該公司在一封電子郵件中表示,本週宣佈的 Titanium 更新並未實現 TPU-GPU 互操作性。

Google Cloud 升級是 Nvidia Blackwell GPU 的預熱,該 GPU 將於明年加入 Google 的雲服務。Google 正在將其自己的「Gen4」液體冷卻技術引入 GB200 服務器托盤,但 Google 尚未透露太多細節。

包括 AWS 和微軟在內的競爭對手都擁有自己的 AI 基礎設施,其中包括自主研發的 CPU 和 AI 加速器。各大公司正投資數十億美元建立 AI 大型數據中心。

參考鏈接

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論