如果您希望可以时常见面,欢迎标星 收藏哦~
来源:内容编译自hpcwire,谢谢。
谷歌云计算正在迎来大量硬件,该公司正在进行重大升级,准备在明年将 Nvidia 的 Blackwell GPU 纳入旗下。
10 月下旬宣布的升级包括其名为 Trillium 的新 TPU、自主研发的 Axion CPU 和 Nvidia 的新 H200 GPU 的预览。
新硬件被输入到谷歌的“超级计算机”中,这是一台遍布谷歌云基础设施的大型超级计算机。它包括一套适用于多种工作负载的多样化软件和芯片产品。
谷歌在系统和软件层面重新考虑了其基础设施,为硬件和软件提供了一个通用层。
这也催生了谷歌的超级计算机,它支持传统计算和现代计算。它融合了计算、网络、存储和软件,以满足不同的 AI 和 HPC 消费模式。
谷歌副总裁兼计算和人工智能基础设施总经理 Mark Lohmeyer 在一篇博文中表示,该公司在 10 月下旬还分享了人工智能超级计算机的概念,它“集成了工作负载优化的硬件(TPU、GPU 和 CPU)、开放软件和灵活的消费模型,为最先进的人工智能模型提供支持”。
Lohmeyer 对 Google Cloud 运作方式的技术愿景类似于 Google 公司的精神——欢迎所有硬件和软件,为其提供用户友好的工具,并提供一系列消费选项。
一款名为 Hypercompute Cluster 的新产品就是按照这个思路建立起来的,它是一种高度可扩展的集群系统。超级计算领域正在努力平衡传统的高精度计算和人工智能猜测,因此 Hypercompute Cluster 处理各种工作负载的能力可以弥补模拟和科学计算之间的差距。
Lohmeyer 表示,该集群将结合谷歌的人工智能基础设施技术,“无缝部署和管理大量加速器作为一个单元”。
密集托管功能将多个资源聚集在一起,吞吐量高,因此工作负载可以快速可靠地完成。此功能对于科学计算和 AI 都很重要。
Google 的目标是为超级计算机所执行的任务提供保障。例如,Google 希望通过其消费模型为时间和结果带来可靠性和灵活性。
在软件和硬件层构建硬件和虚拟化层可能很复杂,但 Google 可以通过在 Google Cloud 上进行预配置部署的单一 API 调用使其变得简单。
科学家可以选择一个环境,将集群部署到 Google Cloud,并选择节点数量、CPU 或 GPU 核心以及内存。
Lohmeyer 解释说:“这包括具有框架和参考实现的容器化软件(例如 JAX、PyTorch、MaxText)、编排(例如 GKE、Slurm)以及流行的开放模型(例如 Gemma2 和 Llama3)。”
此功能使 HPC 堆栈的部署变得更容易,因为部署 HPC 堆栈可能相当复杂,因为它们涉及管理硬件和软件。借助 Google Cloud 管理硬件和软件资源,具有技术知识的创意科学家可以确定使用开源 AI 模型补充科学计算的方法。
当全世界都在追求 Nvidia GPU 时,谷歌也为客户提供了更快速、更具成本效益的替代方案来完成他们的 AI 工作。
Google 将 Trillium TPU 添加到其云产品中,该产品现已推出预览版。在 Google I/O 大会上发布的 Trillium TPU 可以扩展到大规模集群,为 Nvidia GPU 提供替代方案,用于训练 AI 模型并缩小规模以进行推理。Trillium 是 TPUv5 产品的后继者。
Trillium 芯片将能够运行继当前 Gemini 大型语言模型之后的 AI 模型。谷歌声称,通过比较 BF16 与 Cloud TPU v5e 的每芯片峰值计算性能,Trillium 的速度提高了 4.7 倍。
Trillium 芯片拥有下一代 HBM 内存,但谷歌并未具体说明它拥有的是 HBM3 还是 HBM3e,Nvidia 在其 H200 和 Blackwell GPU 中使用了后者。TPU v5e 上的 HBM2 容量为 16GB,因此 Trillium 将拥有 32GB 的容量,HBM3 和 HBM3e 均有提供。HBM3e 提供最大的带宽。
服务器舱可承载 256 个 Trillium 芯片,AI 芯片的通信速度将比类似的 TPU v5 舱设置快 2 倍。这些舱可排列成更大的集群,并通过 Jupiter 光路交换网络结构进行通信,该结构可提供 400 Gb/s 的带宽。
谷歌还增加了其自主研发的 Axion CPU,该公司表示,与同类当前基于 x86 的通用工作负载实例相比,该 CPU 可提供“高达 65% 的性价比和高达 60% 的能效”。
Axion CPU 基于 ARMv9 架构和指令集。
Axion 融入了名为 Titanium 的核心基础设施技术,该技术通过各种技术承担大部分计算工作负载,包括定制硅片、网络、基础设施处理单元和块存储。这些技术减轻了 AI 加速器和 CPU 的负载。
Titanium 也得到了升级。谷歌宣布推出搭载 Nvidia H200 Tensor Core GPU 和全新 Titanium ML 网络适配器的 A3 Ultra VM,该适配器经过优化,可为“AI 工作负载提供安全、高性能的云体验”,谷歌表示。
谷歌发言人在一封电子邮件中表示,Titanium ML 网络适配器“包含并构建在”Nvidia 的 ConnectX-7 NIC 上,当与数据中心范围的 4 向轨道对齐网络集成时,可以通过 RoCE 提供 3.2 Tbps 的 GPU 到 GPU 流量。
谷歌在一封电子邮件中表示,超级计算集群将从 A3 Ultra VM 开始提供。
Google Cloud 的理想情况是客户启动 AI 工作负载,从而充分利用多个加速器。然而,该公司在一封电子邮件中表示,本周宣布的 Titanium 更新并未实现 TPU-GPU 互操作性。
Google Cloud 升级是 Nvidia Blackwell GPU 的预热,该 GPU 将于明年加入 Google 的云服务。Google 正在将其自己的“Gen4”液体冷却技术引入 GB200 服务器托盘,但 Google 尚未透露太多细节。
包括 AWS 和微软在内的竞争对手都拥有自己的 AI 基础设施,其中包括自主研发的 CPU 和 AI 加速器。各大公司正投资数十亿美元建立 AI 大型数据中心。
参考链接