share_log

谷歌云计算,用了哪些芯片?

半导体行业观察 ·  Nov 6 10:11

如果您希望可以时常见面,欢迎标星 收藏哦~

来源:内容编译自hpcwire,谢谢。

谷歌云计算正在迎来大量硬件,该公司正在进行重大升级,准备在明年将 Nvidia 的 Blackwell GPU 纳入旗下。

10 月下旬宣布的升级包括其名为 Trillium 的新 TPU、自主研发的 Axion CPU 和 Nvidia 的新 H200 GPU 的预览。

新硬件被输入到谷歌的“超级计算机”中,这是一台遍布谷歌云基础设施的大型超级计算机。它包括一套适用于多种工作负载的多样化软件和芯片产品。

谷歌在系统和软件层面重新考虑了其基础设施,为硬件和软件提供了一个通用层。

这也催生了谷歌的超级计算机,它支持传统计算和现代计算。它融合了计算、网络、存储和软件,以满足不同的 AI 和 HPC 消费模式。

谷歌副总裁兼计算和人工智能基础设施总经理 Mark Lohmeyer 在一篇博文中表示,该公司在 10 月下旬还分享了人工智能超级计算机的概念,它“集成了工作负载优化的硬件(TPU、GPU 和 CPU)、开放软件和灵活的消费模型,为最先进的人工智能模型提供支持”。

Lohmeyer 对 Google Cloud 运作方式的技术愿景类似于 Google 公司的精神——欢迎所有硬件和软件,为其提供用户友好的工具,并提供一系列消费选项。

一款名为 Hypercompute Cluster 的新产品就是按照这个思路建立起来的,它是一种高度可扩展的集群系统。超级计算领域正在努力平衡传统的高精度计算和人工智能猜测,因此 Hypercompute Cluster 处理各种工作负载的能力可以弥补模拟和科学计算之间的差距。

Lohmeyer 表示,该集群将结合谷歌的人工智能基础设施技术,“无缝部署和管理大量加速器作为一个单元”。

密集托管功能将多个资源聚集在一起,吞吐量高,因此工作负载可以快速可靠地完成。此功能对于科学计算和 AI 都很重要。

Google 的目标是为超级计算机所执行的任务提供保障。例如,Google 希望通过其消费模型为时间和结果带来可靠性和灵活性。

在软件和硬件层构建硬件和虚拟化层可能很复杂,但 Google 可以通过在 Google Cloud 上进行预配置部署的单一 API 调用使其变得简单。

科学家可以选择一个环境,将集群部署到 Google Cloud,并选择节点数量、CPU 或 GPU 核心以及内存。

Lohmeyer 解释说:“这包括具有框架和参考实现的容器化软件(例如 JAX、PyTorch、MaxText)、编排(例如 GKE、Slurm)以及流行的开放模型(例如 Gemma2 和 Llama3)。”

此功能使 HPC 堆栈的部署变得更容易,因为部署 HPC 堆栈可能相当复杂,因为它们涉及管理硬件和软件。借助 Google Cloud 管理硬件和软件资源,具有技术知识的创意科学家可以确定使用开源 AI 模型补充科学计算的方法。

当全世界都在追求 Nvidia GPU 时,谷歌也为客户提供了更快速、更具成本效益的替代方案来完成他们的 AI 工作。

Google 将 Trillium TPU 添加到其云产品中,该产品现已推出预览版。在 Google I/O 大会上发布的 Trillium TPU 可以扩展到大规模集群,为 Nvidia GPU 提供替代方案,用于训练 AI 模型并缩小规模以进行推理。Trillium 是 TPUv5 产品的后继者。

Trillium 芯片将能够运行继当前 Gemini 大型语言模型之后的 AI 模型。谷歌声称,通过比较 BF16 与 Cloud TPU v5e 的每芯片峰值计算性能,Trillium 的速度提高了 4.7 倍。

Trillium 芯片拥有下一代 HBM 内存,但谷歌并未具体说明它拥有的是 HBM3 还是 HBM3e,Nvidia 在其 H200 和 Blackwell GPU 中使用了后者。TPU v5e 上的 HBM2 容量为 16GB,因此 Trillium 将拥有 32GB 的容量,HBM3 和 HBM3e 均有提供。HBM3e 提供最大的带宽。

服务器舱可承载 256 个 Trillium 芯片,AI 芯片的通信速度将比类似的 TPU v5 舱设置快 2 倍。这些舱可排列成更大的集群,并通过 Jupiter 光路交换网络结构进行通信,该结构可提供 400 Gb/s 的带宽。

谷歌还增加了其自主研发的 Axion CPU,该公司表示,与同类当前基于 x86 的通用工作负载实例相比,该 CPU 可提供“高达 65% 的性价比和高达 60% 的能效”。

Axion CPU 基于 ARMv9 架构和指令集。

Axion 融入了名为 Titanium 的核心基础设施技术,该技术通过各种技术承担大部分计算工作负载,包括定制硅片、网络、基础设施处理单元和块存储。这些技术减轻了 AI 加速器和 CPU 的负载。

Titanium 也得到了升级。谷歌宣布推出搭载 Nvidia H200 Tensor Core GPU 和全新 Titanium ML 网络适配器的 A3 Ultra VM,该适配器经过优化,可为“AI 工作负载提供安全、高性能的云体验”,谷歌表示。

谷歌发言人在一封电子邮件中表示,Titanium ML 网络适配器“包含并构建在”Nvidia 的 ConnectX-7 NIC 上,当与数据中心范围的 4 向轨道对齐网络集成时,可以通过 RoCE 提供 3.2 Tbps 的 GPU 到 GPU 流量。

谷歌在一封电子邮件中表示,超级计算集群将从 A3 Ultra VM 开始提供。

Google Cloud 的理想情况是客户启动 AI 工作负载,从而充分利用多个加速器。然而,该公司在一封电子邮件中表示,本周宣布的 Titanium 更新并未实现 TPU-GPU 互操作性。

Google Cloud 升级是 Nvidia Blackwell GPU 的预热,该 GPU 将于明年加入 Google 的云服务。Google 正在将其自己的“Gen4”液体冷却技术引入 GB200 服务器托盘,但 Google 尚未透露太多细节。

包括 AWS 和微软在内的竞争对手都拥有自己的 AI 基础设施,其中包括自主研发的 CPU 和 AI 加速器。各大公司正投资数十亿美元建立 AI 大型数据中心。

参考链接

The above content is for informational or educational purposes only and does not constitute any investment advice related to Futu. Although we strive to ensure the truthfulness, accuracy, and originality of all such content, we cannot guarantee it.
    Write a comment