share_log

英伟达的GB200,怎么部署?

如果您希望可以时常见面,欢迎标星 收藏哦~

来源:内容由半导体行业观察(ID:icbank)编译自semianalysis,谢谢。

Nvidia 的 GB200通过卓越的硬件架构带来了显著的性能提升,但部署复杂性也急剧上升。虽然从表面上看,Nvidia 已经发布了一个标准机架,人们只需在数据中心安装它,无需太多麻烦,即插即用,但实际情况是,有几十种不同的部署变体,各有优缺点,而且一代一代的复杂性都在显著增加。供应链为终端数据中心部署者、云、服务器 OEM/ODM 和下游组件供应链进行了重新设计。

今天,我们将从头到尾介绍 GB200 的不同外形尺寸,以及它们与之前的 8 GPU HGX 基板服务器相比有何变化。我们将细分 GB200 机架的 50 多个不同子组件的单位数量、供应商市场份额和成本。此外,我们将深入研究对子组件供应链产生重大影响的超大规模定制。

Blackwell 的 4 种机架规模形式

GB200 机架提供 4 种不同的主要外形尺寸,每种尺寸均可定制。

GB200 NVL72

GB200 NVL36x2

GB200 NVL36x2(Ariel)

x86 B200 NVL72/NVL36x2

第一个是GB200 NVL72 外形尺寸。这种外形尺寸需要大约 120kW/机架。为了说明这种密度,通用 CPU 机架支持高达 12kW/机架,而更高密度的 H100 风冷机架通常仅支持大约 40kW/机架。每机架超过 40kW 是 GB200 需要液体冷却的主要原因。

GB200 NVL72 机架由 18 个 1U 计算托盘和 9 个 NVSwitch 托盘组成。每个计算托盘高 1U,包含 2 个 Bianca 板。每个 Bianca 板包含 1 个 Grace CPU 和 2 个 Blackwell GPU。NVSwitch 托盘有两个 28.8Gb/s NVSwitch5 ASIC。

除了一个超大规模企业计划将其作为主要变体进行部署外,我们认为在 Blackwell Ultra 之前,这个版本将很少被部署,因为大多数数据中心基础设施即使采用直接芯片液体冷却 (DLC) 也无法支持如此高的机架密度。

下一个外形尺寸是GB200 NVL36 * 2 ,它是两个并排互连在一起的机架。大多数 GB200 机架将使用此外形尺寸。 每个机架包含 18 个 Grace CPU 和 36 个 Blackwell GPU。在 2 个机架之间,它仍然保持 NVL72 中的所有 72 个 GPU 之间的无阻塞。每个计算托盘的高度为 2U,包含 2 个 Bianca 板。每个 NVSwitch 托盘都有两个 28.8Gb/s NVSwitch5 ASIC 芯片。每个芯片有 14.4Gb/s 指向背板,14.4Gb/s 指向前板。每个 NVswitch 托盘有 18 个 1.6T 双端口 OSFP 笼,水平连接到一对 NVL36 机架。

每机架功率和冷却密度为 66kW,NVL36 机架共计 132kW * 2。这是上市时间解决方案,因为每机架仅为 66kW/机架。不幸的是,由于额外的 NVSwitch ASIC 和跨机架互连布线的要求,NVL36x2 系统确实比 NVL72 多耗电约 10kW。NVL36x2 总共有 36 个 NVSwitch5 ASIC,而 NVL72 上只有 18 个 NVSwitch5 ASIC。即使总功率增加了 10kW,大多数公司明年仍将部署此版本而不是 NVL72,因为他们的数据中心无法支持每机架 120kW 的密度。我们将在后面的液体冷却部分讨论其原因。

最后一种形式是带有定制“Ariel”板(而不是标准 Bianca)的特定机架。我们相信这种变体将主要由 Meta 使用。由于 Meta 的推荐系统训练和推理工作负载,它们需要更高的 CPU 核心和每 GPU 更多的内存比率,以便存储大量嵌入表并在 CPU 上执行预处理/后处理。

内容与标准 GB200 NVL72 类似:但 Bianca 板被替换为具有 1 个 Grace CPU 和 1 个 Blackwell GPU 的 Ariel 板。由于每个 GPU 的 Grace CPU 内容翻倍,因此与 NVL36x2 相比,此 SKU 的价格会更高。与 NVL36x2 类似,每个 NVSwitch 托盘有 18 个 1.6T 双端口 OSFP 笼(cages ),水平连接到一对 NVL36 机架。

我们认为 Meta 的大部分分配将是普通的 NVL36x2,因为它更适合 GenAI 工作负载,而 Ariel 版本将仅用于其最大的推荐系统工作负载。虽然没有什么可以阻止 Ariel 用于 GenAI 工作负载,但 CPU 的过度配置意味着从TCO 的角度来看,它将因更高的资本成本和功耗而处于劣势。

最后,2025 年第二季度将推出B200 NVL72 和 NVL36x2 规格,它们将使用 x86 CPU 而不是 Nvidia 内部的 grace CPU。这种规格称为 Miranda。我们认为每个计算托盘的 CPU 到 GPU 的比例将保持不变,即每个计算托盘 2 个 CPU 和 4 个 GPU。

我们认为,与 Grace CPU 版本相比,NVL72/NVL36x2 的这一变体将具有较低的前期资本成本,流向 Nvidia 的收入也会减少。由于它使用的是 x86 CPU,因此与 Grace C2C 相比,CPU 到 GPU 的带宽将低得多,后者可以以高达 900GB/s 的双向速度(450GB/s)与 GPU 通信。因此,TCO 值得怀疑。此外,由于 x86 CPU 无法在 CPU 和 GPU 之间共享功率以优化工作负载,因此所需的总峰值功率要高得多。在我们的加速器模型中,我们细分了 GB200 规格以及前 50 名买家将部署的确切数量。

电力预算估算

我们估计每个计算托盘的最大 TDP 为 6.3kW。计算托盘的大部分功耗来自每个托盘中的两个 Bianca 板和 8 个风扇。NVL72 中的 NVSwitch 托盘不需要在机架之间连接,因此与 NVL36 相比,功耗降低了 170W。使用 NVL36,有 18 条 1.6T ACC 电缆水平连接到相邻机架。我们将在后续章节中解释 NVLink 拓扑。每个 NVL72 123.6kW 是总功耗,包括从鞭状电缆的交流电整流到计算托盘所接收的直流电的低效率。

而对于 NVL36*2,每个机架的最大 TDP 约为 67kW,而两个机架对的功耗约为 132kW。与 NVL72 相比,这大约多耗电 10kW。

计算托盘图和布线

GB200 NVL72/NVL36x2 的核心是 Bianca 主板。Bianca 主板包含两个 Blackwell B200 GPU 和一个 Grace CPU。主板上的 CPU 和 GPU 比率现在为 1:2,而 GH200 的比率为 1:1。大多数评估 GH200 的客户都告诉 Nvidia,它太贵了,因为 1:1 的 CPU 比率对于他们的工作量来说太高了。这是 GH200 出货量与 HGX H100(2 个 x86 CPU,8 个 H100 GPU)相比如此低的主要原因之一。对于 Blackwell 来说,GB200 的出货量相对较高,与 HGX Blackwell B100/B200 相比,单位出货量将出现交叉。

通常在 Hopper 和 Blackwell HGX 服务器中,CPU 和 GPU 之间有 Broadcom PCIe 交换机。对于 GB200,CPU 和 GPU 都在同一 PCB 上,从而将插入损耗降低到不再需要在参考设计上的 CPU 和 GPU 之间使用交换机或重定时器的程度。从表面上看,这对 Astera Labs 来说是极其不利的。它现在有约 35% 的空头持仓,但这些空头持仓主要来自那些没有深入关注供应链、只知道参考设计中没有重定时器的人。

该参考设计的另一个有趣之处是,不再使用典型的 MCIO PCIe x16 连接器将主 PCB 板连接到 PCIe 外形尺寸的 ConnectX-7/8,而是将 ConnectX-7/8 IC 通过 Mirror Mezz 连接器使用夹层板直接放置在 Bianca 板的顶部。

这样做的好处是可以使用同一个冷却板来冷却 CPU、GPU 和 ConnectX-7/8 NIC。电气通道通过夹层板的 DensiLink 连接器路由到机箱前部的 OSFP 笼。这类似于 Nvidia 在其镀金 DGX H100 机箱上使用 DensiLink 从 ConnectX-7 路由到 OSFP 笼的方式。

与 Dual GH200 类似,在同一个计算托盘内,有一个高速连贯 NVLink 连接,双向带宽高达 600GB/s(单向带宽为 300GB/s)。这是一个极快的连接,允许 CPU 共享资源和内存,类似于拥有 2 个 CPU 和 NUMA(非统一内存访问)区域的 HGX H100/B100/B200 服务器。

由于这种连接两个 Bianca 板的连贯链路,您可以在 CPU 之间共享内存、存储和资源(例如 NIC)。因此,您将能够减少前端 NIC 的数量,并且每个计算托盘只有 1 个前端 NIC,而不是参考设计中建议的 2 个。这类似于 x86 中的情况,即使每个服务器有 2 个 CPU,您也只需要 1 个前端 NIC,因为 CPU 能够共享资源。我们将在前端网络部分进一步讨论这一点。

至于 2700 瓦电源如何进入主板,CPU 和 GPU 各自的电压调节器模块 (VRM) 周围有 4 个 RapidLock 12V DC 和 4 个 RapidLock GND(接地)电源连接器。这些 12V 和 GND 电源连接器将连接到计算托盘的配电板 (PDB)。配电板从机架级母线获取 48V DC,并将其降压为 12V DC 以提供给 Bianca 主板。

就内部计算托盘电缆 + 连接器而言,大部分成本主要由连接 ConnectX-7/8 夹层板和 Bianca 板的 Mirror 夹层连接器以及从 ConnectX-7/8 连接到机箱正面的 OSFP 笼的 DensiLink 电缆决定。

在 Nvidia 参考设计中,每个计算托盘有两个 Bluefield-3,但正如后面章节所述,我们相信大多数公司根本不会选择任何 Bluefield-3。在机箱的前面,您可以找到所有典型的与服务器相关的管理端口,如 RJ45、USB 等。还有八个用于本地节点级存储的 NVMe 存储托架,您还可以找到横向扩展后端 OSFP 笼。

后端框架引导我们讨论 GB200 中最关键的部分之一:网络。

联网

与 HGX H100、AMD MI300X、Intel Gaudi、AWS Trainium 类似,GB200 系统中有 4 种不同的网络:

前端网络(普通以太网)

后端网络(InfiniBand/RoCE 以太网)

加速器互连 (NVLink)

带外网络

简单回顾一下,前端网络只是您用来连接互联网、SLURM/Kubernetes、网络存储、数据加载、模型检查点的普通以太网网络。此网络通常为每 GPU 25-50Gb/s,因此在 HGX H100 服务器上,每台服务器为 200-400Gb/s,而在 GB200 计算机托盘节点上,每台服务器为 200-800Gb/s,具体取决于配置。

您的后端网络用于在数百到数千个机架之间扩展 GPU-GPU 通信。该网络可以是 Nvidia 的 Infiniband 或 Nvidia Spectrum-X 以太网或 Broadcom 以太网。与Broadcom 以太网解决方案相比,Nvidia 提供的选项要昂贵得多。

扩展加速器互连(Nvidia 上的 NVLink 、AMD 上的 Infinity Fabric/UALink、Google TPU 上的 ICI 、Amazon Trainium 2 上的 NeuronLink)是一种超高速网络,可将系统内的 GPU 连接在一起。在 Hopper 上,此网络将 8 个 GPU 连接在一起,每个 GPU 的速度为 450GB/s,而在 Blackwell NVL72 上,它将 72 个 GPU 连接在一起,每个 GPU 的速度为 900GB/s。Blackwell 有一个名为 NVL576 的变体,它将 576 个 GPU 连接在一起,但基本上没有客户会选择它。通常,您的加速器互连比后端网络快 8-10 倍。

最后,还有带外管理网络,用于重新映像您的操作系统,监控节点健康状况(如风扇速度、温度、功耗等)。服务器、PDU、交换机、CDU 上的基板管理控制器 (BMC) 通常连接到此网络以监控和控制这些 IT 设备。

NVLink 扩展互连

与 HGX H100 相比,GB200 的前端、后端和带外网络基本相同,但 NVLink 扩展到机箱外部除外。只有超大规模定制一代又一代不同。之前在 HGX H100 中,8 个 GPU 和 4 个 NVSwitch4 交换机 ASIC 使用 PCB 走线连接在一起,因为它们位于同一 PCB(即 HGX 基板)上。

现在,在 HGX Blackwell 上,NVSwitch ASIC 位于中间,以减少 PCB 走线的长度,因为升级了 224G SerDes

但是在 GB200 上,NVSwitches 与 GPU 位于不同的托盘上,因此您需要使用光学或 ACC 在它们之间进行连接。

在 NVL72 中,它们保留了与 HGX Hopper/Blackwell 相同的扁平 1 层 NVLink 拓扑,这样您只需通过 NVSwitch 进行 1 跳即可与同一机架内的任何 GPU 通信。这与 AMD 和 Intel 的当前一代互连不同,后者无需交换机即可直接从 GPU 连接到 GPU,从而降低了加速器到加速器的带宽。

在 NVL36x2 中,只需 1 跳(hop)即可到达同一机架中的 36 个 GPU 中的任何一个,但为了与旁边机架中的其他 36 个 GPU 通信,需要 2 个 NVSwitch 跳才能跨机架。直观地看,一个额外的跳会增加延迟,但对于训练来说并不明显。它会对推理产生轻微影响,但不会太大,除非目标是在batch 1 中实现极高的交互性(>500TPS)而无需推测解码。请注意,这是一个非常不切实际的场景,我们不希望任何人利用它。

Nvidia 声称,如果他们使用带收发器的光学器件,则需要为每个 NVL72 机架增加 20kW。我们进行了计算,发现需要使用 648 个 1.6T 双端口收发器,每个收发器的功耗约为 30W,因此计算结果为 19.4kW/机架,与 Nvidia 的说法基本相同。每个 1.6T 收发器的价格约为 850 美元,仅收发器成本一项就高达每机架 550,800 美元。如果按 Nvidia 75% 的毛利率计算,则意味着最终客户需要为每机架 NVLink 收发器支付 2,203,200 美元。这是 DGX H100 NVL256 因收发器成本过高而从未发货的主要原因之一。此外,与铜缆甚至上一代光纤相比,1.6T NVLink 收发器等前沿收发器的可靠性要差得多。

因此,这就是 Nvidia 选择使用 5184 根有源铜缆 (ACC) 的原因,这是一种更便宜、更省电、更可靠的选择。每个 GPU 都有 900GB/s 的单向带宽。每个差分对 (DP) 能够在一个方向上传输 200Gb/s,因此每个 GPU 需要 72 个 DP 才能实现双向传输。由于每个 NVL72 机架有 72 个 GPU,这意味着有 5184 个差分对。每条 NVLink 电缆包含 1 个差分对,因此有 5184 条电缆。

这是一代又一代铜含量的大幅增加。令人吃惊的是,我们看到一些投资者估计每 GPU 的 NVLink 互连内容约为 3000 美元,总价值达到 216000 美元/NVL72 机架,但这完全是错误的。

首先,人们怎么会得出每 GPU 3000 美元这样的荒谬数字?我们认为,他们以每 GPU 900GB/s(7200Gb/s)的单向带宽为例,并计算出 400Gb/s 铜缆的零售价为 162 美元。由于每 GPU 需要 18 条 400Gb/s 全双工电缆,因此每 GPU 的价格将达到 3000 美元。这个数字大错特错。

此外,人们误以为电缆很贵。大部分成本不是来自电缆本身,而是来自电缆和连接器的端接。连接器很贵,因为它们需要防止不同差分对之间的串扰。串扰非常严重,因为它会模糊其他信号并导致错误,导致解串器无法读取正确的位。Nvidia 选择使用 Amphenol 的 Ultrapass Paladin

每个 Blackwell GPU 都连接到 Amphenol Paladin HD 224G/s 连接器,每个连接器有 72 个差分对。然后,该连接器连接到背板 Paladin 连接器。接下来,它将使用 SkewClear EXD Gen 2 电缆连接到 NVSwitch 托盘 Paladin HD 连接器,每个连接器有 144 个差分对。从 NVSwitch Paladin 连接器到 NVSwitch ASIC 芯片,需要 OverPass 跨接电缆,因为每个交换机托盘有 4 个 144 DP 连接器(576 DP),在如此小的区域中进行 PCB 走线会产生太多串扰。此外,PCB 上的损耗比跨接电缆上的损耗更严重。

使用 NVL36x2,每个系统将需要额外的 162 条 1.6T 双端口水平 ACC 电缆,这些电缆对于连接机架 A 和机架 B 之间的 NVSwitch 托盘来说非常昂贵。我们在这里分析了 ACC 电缆和芯片市场。有多个参与者占有相当大的份额。此外,OSFP 笼还需要额外的 324 条 DensiLink 跨接电缆。仅这些 DensiLink 跨接电缆就需要每台 NVL36x2 增加 10,000 多美元的成本。

此外,需要两倍的 NVSwitch5 ASIC 来实现机架 A 和机架 B 之间的连接。这将使 NVLink 铜缆总成本比 NVL72 增加一倍以上。

尽管 NVL36x2 的 NVLink 背板内容比 NVL72 贵两倍多,但大多数客户仍会选择 NVL36x2 设计,因为功率和冷却限制。需要明确的是,虽然价格非常昂贵,但 NVL36x2 和 NVL72 的铜成本都低于投资者群体的预期。

真正的赢家是供应链中的电缆供应商和活跃的铜芯片供应商,由于 NVL36x2 的普及,他们的前沿 1.6T 销量大幅增加。

GB200 NVL576

正如 Jensen 在台上提到的,GB200 NVLink 可以同时连接 576 个 Blackwell GPU。我们认为这是使用具有 18 个平面的 2 层胖树拓扑实现的。这类似于他们为 DGX H100 NVL256 连接 16 个 NVL36 机架所计划的。它将使用位于计算机架中的 288 个 L1 NVSwitch5 ASIC(144 个 1U 交换机托盘),如 NVL36x2,并且它将使用位于专用 NV Switch 托盘上的 144 个 L2 NVSwitch ASIC(72 个 2U 交换机托盘)。与 NVL36x2 一样,GPU 和 L1 NVSwitch 之间的连接将使用相同的铜背板,因为它距离很短。

不幸的是,L1 NVSwitch 和 L2 NVSwitch 之间的距离大于铜线所能达到的距离;因此必须使用光纤连接。此外,L2 NVSwitch 使用 Flyover 电缆连接到机箱正面的 OSFP 笼。NVL576 的额外 BOM 成本高达天文数字,超过 560 万美元(每 GPU 9.7 万美元),Nvidia 需要向其供应商支付这笔费用。

如果毛利率一律为 75%,则意味着客户需要为 NVL576 铜 + 光纤连接每 GPU 额外支付 38.8k。虽然 Nvidia 可以削减利润,即使是横向扩展 NVLink 解决方案的利润率为 0%,但这基本上是站不住脚的。这也是 DGX H100 NVL256 从未出货的原因,因为收发器的成本太高。对于加速器互连来说,光纤太贵了,因为加速器互连需要极高的带宽。

后端网络

GB200 的后端网络是大多数选项出现的地方。Nvidia 通常会发布配备新一代 NIC 和 Switch 的 GPU,但由于 Nvidia 的时间表很紧迫,尤其是 224G SerDes,这一代的新网络是在 Blackwell 一代的一半时推出的。因此,GB200 的所有初始出货量都将使用与大多数 H100 服务器中出货的相同的 ConnectX-7。

对于后端网络,客户将使用多种不同类型的交换机,具体取决于他们使用的 NIC。

Quantum-2 QM9700 Infiniband NDR

Quantum-X800 QM3400 Infiniband XDR

Quantum-X800 QM3200 Infiniband NDR/XDR

Spectrum-X SN5600

Spectrum-X Ultra

博通战斧5

博通战斧 6

在后端网络方面,上市时间将全部出货 QM9700 Quantum-2 交换机或 Broadcom Tomahawk 5,就像 H100 一代一样。尽管是相同的后端网络硬件,但利用轨道优化设计仍存在巨大挑战。这是由于交换机之间的端口与机架上的端口数量不匹配。使用 NVL72,每个计算托盘有 4 个 GPU,这意味着在 4 轨道优化设计中,每个 Quantum-2 交换机应该有 18 个下行链路端口。

由于每个交换机在胖树中具有相同数量的上行链路端口,这意味着 64 个端口中只有 36 个会被使用。实际上,每个交换机将有许多空闲端口。如果每个交换机有 2 个轨道,那么端口数量将达到 72 个,这将超过 QM9700 Quantum-2 交换机提供的数量。为了利用每个 Quantum-2 交换机中的所有端口,每 4 个 NVL72 机架将有 9 个非轨道优化叶交换机。

对于 ConnectX-7,您还可以使用 Q3200 Quantum-3 交换机托盘,其中包含 2 个独立交换机,每个交换机有 36 个 400Gb/s 端口。这没有端口不匹配,并且可以使用 4 轨优化,每个 NVL72 有 4 个 Q3200 Quantum-X800 交换机。

对于升级后的 800Gb/s ConnectX-8,将于 2025 年第二季度开始配备 Quantum-X800 Q3400,该设备具有 144 个 800Gb/s 端口,分布在 72 个双端口 OSFP 端口上。由于没有端口不匹配,大多数客户将选择 Nvidia 推荐的 4 轨优化设计,交换机机架为机架末端 (EoR)。

有了 CX-8,您还可以使用 Spectrum-X Ultra 800G,从而放弃上一代产品所需的昂贵且昂贵的 Bluefield 选项。我们在此讨论 Quantum-X800 交换机选项以及它将如何影响光收发器市场。基于 Broadcom 的 Tomahawk 6 部署变体也将于明年下半年上市。

从 CX-7 到 CX-8 的过渡将成为从 400G(4x100G)SR4 光收发器转向 800G(4x200G)DR4 光收发器的主要推动力。使用 GB200 NVL72 上的 CX-7,每个 GPU 具有 400G 带宽,并连接到一个 OSFP 笼,该笼具有多模400G 单端口 SR4 收发器,该收发器具有四个光通道,每个光通道由多模 100G VCSEL 供电。对于基于 CX-7 的网络,交换机端通常采用 800G 双端口 SR8 或 DR8 收发器。

对于 CX-8,所有速度都翻倍,每个 GPU 800G(4x200G)DR4,交换机端每个 OSFP 笼 1.6T(8x200G)DR8。由于 200G 多模 VCSEL 的开发工作还需要 9 到 18 个月才能完成 1.6T 的开发,因此业界转而转向单模 200G EML。

与 DGX H100 类似,Cedar-8 的可用方式是,每个 Bianca 板上的两个 CX-8 NIC IC 都放入单个 OSFP224 笼中。 需要两个 1.6T(8x200G 通道)双端口收发器而不是四个 800G(4x200G 通道)单端口收发器的优势。由于单端口 4x200G 收发器比 8x200G 双端口收发器便宜约 35%,因此使用 Cedar-8 代替两个 4x200G 收发器,成本将降低 30%。由于计算托盘上单个 OSFP 笼中 2 倍带宽的散热挑战,我们预计大多数公司不会使用 Cedar-8。

大多数公司在发布时仍会坚持使用 ConnectX-7/ConnectX-8。即使是谷歌等过去一直使用英特尔等公司定制后端 NIC 的公司,也将改回 Nvidia ConnectX-8 NIC。

唯一例外是亚马逊,它将集成自己的后端 NIC。我们相信他们将使用其定制的后端 400G(4x100G)NIC。此网卡将不同于其标准 Nitro NIC,因为它主要面向性能。

为了在 Bianca 板上使用自定义后端 NIC,而不是在夹层板上使用 ConnectX IC,他们将需要使用一个适配器夹层板,该夹层板将镜像夹层连接器分成 8 个 MCIO PCIe 连接器,连接到机箱的前部。

由于没有 ConnectX-7/8 或 Bluefield-3(它们都具有集成 PCIe 交换机),因此需要 Broadcom/Astera Labs 的专用 PCIe 交换机将后端 NIC 连接到 CPU 和 GPU。在SemiAnalysis GB200 组件和供应链模型中,我们细分了 PCIe 交换机供应商、数量和 ASP。仍有超大规模定制设计,其中包括用于 CPU 和 NIC 之间的 PCIe 交换机。Nvidia 的 Miranda 设计在 PCIe 通道处理方面也与 GB200 有很大不同。此外,Amazon Trainium 2 部署有大量 Astera Labs 重定时器。

使用定制 NIC 会给公司带来额外的工程工作,因为他们无法使用默认的水冷块,该水冷块也专门用于冷却 ConnectX IC。他们还需要运行新的热模拟,以确保机箱前部的定制 NIC 具有足够的冷却能力,不会导致过热问题。此外,他们将无法使用 NVL72 中使用的 1U 计算托盘版本。

他们只能选择 2U NVL36 版本,该版本在托盘前端具有足够的空气冷却能力。所有这些额外的工程工作将延迟亚马逊和其他任何试图使用自定义后端 NIC 的人的上市时间。这些挑战是谷歌选择使用 ConnectX-8 而不是继续在其 GB200 服务器上使用英特尔 IPU 的原因。

前端网络

在参考设计中,每个计算托盘有两个 400Gb/s Bluefield-3。由于每个计算托盘有 4 个 GPU,这意味着每个 GPU 获得 200Gb/s 的前端带宽。目前部署的最先进的 HGX H100 服务器有一个 200-400Gb/s ConnectX-7 NIC 用于其前端流量。这是 8 个 GPU,意味着每个 GPU 25-50Gb/s。每个 GPU 200Gb/s 的前端带宽是一个极端的数量,大多数客户不会选择这个额外的成本。一般来说,Nvidia 参考设计为绝对最坏的情况过度配置,以便他们向您出售更多内容。

我们认为,唯一将使用 Bluefield-3 作为前端 NIC 的主要客户将是 Oracle。他们运行需要前端网络虚拟化的云服务,但与其他超大规模企业不同,他们部署了自定义 NIC 解决方案。亚马逊、谷歌和微软都拥有自定义前端 NIC,这些 NIC 已存在于其所有通用 CPU 服务器和加速计算服务器中。他们打算继续使用这些解决方案,因为它们具有巨大的 TCO 优势,并且已经垂直集成到他们的网络/云软件堆栈中。

讽刺的是,唯一一家在 AI 集群中广泛使用 Bluefield-3 的公司(xAI)甚至没有将其用于其预期的 DPU 用途。xAI 在 NIC 模式下使用 Bluefield-3,而不是 DPU 模式,因为第一代 Nvidia Spectrum-X 以太网需要 Bluefield-3 作为后端 NIC 的临时解决方案。Spectrum-X800 Ultra 将与 CX-8 后端 NIC 配合使用,并且不需要 Bluefield-3/4 即可正常运行。

网络电缆 + 收发器物料清单

下面,我们计算了 Nvidia 向其合同制造商支付的物料清单成本。我们将仅计算计算/NVSwitch 托盘端收发器的成本,因为如果包括交换机,计算会变得复杂,因为集群可以是第 2 层或第 3 层,甚至在巨型集群中可以是第 4 层。

您可以看到,使用 ConnectX-8,通过使用带有 DAC/ACC 铜线的机架顶部设计,而不是 4 轨优化的后端设计;仅后端网络就节省了约 32,000 美元。不幸的是,由于计算机架的严格功率要求,我们认为大多数人必须将后端交换机放在不同的服务机架中,并使用光学器件将它们连接起来。

对于带外管理,这些都是廉价的铜 RJ45 电缆,每根成本不到一美元,用于从计算/交换机托盘连接到机架顶部的带外管理交换机。如上所述,参考设计对于它们拥有的前端 NIC 和带宽来说有点过头了。我们相信大多数公司将拥有 200G 的前端带宽,而不是拥有 2 个 BF-3,即每个计算托盘总共 800Gb/s 的带宽。仅收发器成本一项,每个系统就能节省 3.5 万美元。

在光学和 DSP 方面,Nvidia 正在大力扩展供应链,从仅占绝大多数的 Fabrinet 和 Innolight 扩展到 Eoptolink。Eoptolink 专注于 800G LPO 和 1.6T DSP。

DSP 领域也发生了巨大变化。上一代 Marvell 凭借 H100 占据了 Nvidia 的 100% 份额。这一代,Broadcom 大举进军。我们看到 Innolight 和 Eoptolink 都希望在 DSP 中大量增加 Broadcom。

此外,Nvidia 还聘请了多位 DSP 工程师,并推出了 1.6T DSP。我们认为这不会在短期内实现量产,但如果实现量产,那么将用于 Fabrinet 收发器。内部 DSP 量产的最大挑战在于 Nvidia 在 DSP 的每一侧主要使用了相同的长距离高功率 SerDes。通常,DSP 在光学面和 NIC/Switch 面的 SerDes 优化方式不同。这两组 SerDes 都针对功率进行了优化,而不仅仅是针对量产范围,这是 Nvidia 在设计 224G SerDes 时的主要优化点。Nvidia 的内部 DSP 耗电量过大,因此由于 1.6T 收发器已经很热,冷却问题严重,因此其内部 DSP 很难量产。如果需要,Nvidia 的 DSP 还可以用作重定时器,但 ACC 就足够了。

参考链接

点这里 加关注,锁定更多原创内容

The above content is for informational or educational purposes only and does not constitute any investment advice related to Futu. Although we strive to ensure the truthfulness, accuracy, and originality of all such content, we cannot guarantee it.
    Write a comment