英偉達下一代GPU披露：集成八個HBM 4，台積電N3製程

半導體行業觀察 · 05/10 15:38

近日，知名分析师郭明錤披露英伟达下一代AI芯片R系列/R100 AI芯片的相关信息。据他所说，该芯片将于2025年4季度进入量产，系统/机架解决方案可能会在2026年1H20开始量产。

在工艺方面，R100将采台积电的N3制程 (vs. B100采用台积电的N4P) 与CoWoS-L封装 (与B100相同)。与此同时，R100采用约4x reticle设计 (vs. B100的3.3x reticle设计)。

来到Interposer尺寸方面，按照郭明淇的说法，英伟达尚未定案，但会有2–3种选择。

至于备受关注的HBM方面，R100预计将搭配8颗HBM4。

同时，英伟达GR200的Grace CPU将采台积电的N3制程 (vs. GH200/GB200的CPU采用台积电N5)。

按照郭明淇所说，Nvidia已理解到AI服务器的耗能已成为CSP/Hyperscale采购与资料中心建置挑战，故R系列的芯片与系统方案，除提升AI算力外，耗能改善亦为设计重点。

英伟达芯片路线图，深度解读

2023年10月，英伟达更新了其最新数据中心路线图，其激进的更新幅度更新了所有人。首先，我们先回顾一下英伟达过去几年的路线图。以下是2021年 4 月举行的 GTC 2021 上发布的内容：

这是“Hopper”之后的更新版，在上面的路线图中被称为“Ampere Next”，在 2022 年 Computex 上发布：

以下是我们认为今年早些时候发布的路线图的更新，其中添加了用于人工智能推理、可视化和元宇宙处理卡的“Lovelace”GPU 系列：

最后，这是英伟达近来发布的路线图，由semianalysis首先披露。

如果过去的趋势是未来趋势的指标——当芯片制造商向其超大规模和云构建商客户承诺两年推出一次的节奏时，它们肯定应该是未来趋势的指标，就像英伟达几年前所做的那样——那么我们绝对期待新架构的 Blackwell GB100 GPU 加速器将于明年 3 月至 5 月左右推出。但正如您在下面所看到的，Nvidia 主要 GPU 发布的节奏通常不到两年。所以这是一种回归形式。

以下是数据中心 GPU 在过去 21 年中的推出方式，数据中心 GPU 计算至关重要：

“Kepler”K10 和 K20，2012 年 5 月
“Kepler”K40，2013 年 5 月
“Kepler”K80，单卡上有两个 GK210B GPU
“Maxwell”M40，2015 年 11 月，主要用于 AI 推理，并非真正用于 HPC 或 AI 训练
“Pascal”GP100，2016 年 4 月
“Volta”GV100，2017 年 5 月（原始 Pascal 的某些功能直到 Volta 才出现）
“Ampere”GA100，2020 年 5 月
“Hopper”GH100，2022 年 3 月
“Hopper-Next”H200，2024年春季？
“Blackwell”GB100，2024年夏季还是秋季？
“Xavier”GX100，2025年春夏

我们很清楚，Hopper-Next 应该是 Blackwell GB100 GPU，而现在路线图上的 GH200 是一种权宜之计，试图转移人们对 AMD看起来将于 12 月推出的CPU-GPU 混合设备“Antares” Instinct MI300X GPU 和 MI300A 混合显卡的注意力。AMD 将在这些设备上拥有 HBM 内存容量和带宽优势，以及用于 CPU 和 GPU 的聚合内存，而 Nvidia 不能告诉所有人 H100NVL双倍卡就是答案。

因此，有两种方法可以使用即将推出的 Hopper-Next H200 GPU。我们赞成但仅基于预感的一个是 Nvidia 测试将两个 Hopper GH100 GPU 放入一个插槽中，因为它已经使用其 Arm 服务器 CPU 与其 Grace-Grace 超级芯片配合使用。我们在一年半前建议它这样做。该芯片的性能可以稍微降低，以获得更合适的功率范围，并留出空间来容纳更高的 HBM3e 内存堆栈，从而提高目前数据中心非常缺乏的内存与计算比率。

GPU 插槽中的芯片数量并不像每个插槽中的带宽那么重要。每个插槽需要两个 GPU，但内存带宽需要四倍、六倍或八倍才能真正领先并提高 GPU 的性能。我们半开玩笑地说：拥有一半 Hopper GPU 可能更有意义——称之为 Hop？– 如果您确实想提高 AI 工作负载的性能，则需要 2 倍的内存容量和 2 倍的内存带宽。

有些人认为H200只是内存升级，在相同的GH100 GPU上提供2倍的内存容量和2倍的内存带宽。我们认为会对它进行一些调整，并且可能会进行更深层次的垃圾分类，以至少提高性能。

这个路线图中还有另一件令人烦恼的事情：根据 Nvidia 的最新路线图，未来的 Blackwell GB100 GPU 和 B100 加速器到底什么时候出现？你看到上面有日期吗？我们推测是在 2024 年末，但 Blackwell 仍有一定的余地可以推迟到 2025 年初。（我们认为 Blackwell 芯片很可能以伊丽莎白·布莱克威尔 (Elizabeth Blackwell) 命名，她是第一位在美国获得医学学位的女性（在纽约州北部的日内瓦医学院，现在是雪城大学的一部分），也是第一位在英国总医学委员会医学登记册上登记的女性。）

无论如何，Blackwell GB100 GPU 都非常接近 GX100 GPU（我们将其代号为“Xavier”），预计将于 2025 年推出，我们认为是在今年晚些时候，但也可能不是。（除了漫威超级英雄宇宙中虚构的Charles Xavier 之外，我们找不到姓氏以 X 结尾的重要著名科学家，是的，我们知道 Nvidia 已经在其嵌入式系统之一中使用了该代号.“X”可能只是意味着它是一个变量，而 Nvidia 尚未决定有一个代号。）

我们认为 Nvidia 需要更多时间来调整 Blackwell 的 GPU 架构，并且考虑到 AI 模型变化的速度，如果事情很重要，例如 Volta 的 Tensor Cores 或稀疏性，Nvidia 应该这样做是合理且正确的支持是针对 Ampere，或者 Transformation Engine 和 FP8 是针对 Hopper。

解决这个问题后，我们对当前的 Nvidia 路线图有一些需要挑选的地方。例如，BlueField DPU 发生了什么？

DPU 是 Nvidia 硬件堆栈不可或缺的一部分，提供网络、安全和虚拟化卸载，并将超级计算机转变为多租户云。Hopper GPU 是在 2022 年 3 月的春季 GTC 会议上宣布的，而不是在 2023 年，并且也在 2022 年末发货。H100 NVL 和 Lovelace L40 失踪了。“Ampere”A100 于 2020 年问世，而不是 2021 年。Quantum 2 400 Gb/秒 InfiniBand 和 400 Gb/秒 Spectrum-3 以太网于 2021 年发布，并于 2022 年（而不是 2023 年）开始发货。速度为 800 Gb/秒以太网和 InfiniBand 的运行速度比我们在 2020 年 11 月与 Nvidia 交谈时的预期晚了大约一年。顺便说一句，上一代 200 Gb/秒 Quantum InfiniBand 于 2016 年发布，并于 2017 年发货。那里存在很大的差距，因为所有试图推销从 200 Gb/秒到 400 Gb/秒的跳跃的公司都存在这个差距。

鉴于这一切，我们更新了 Nvidia 官方路线图：

显然，生成式人工智能的爆炸式增长消除了数据中心和超级计算高层对计算和互连的犹豫。因此，每年一次的节奏是有意义的。但如果不出现一些滑点，可能很难维持。事实上，这个路线图可以被视为弥补 Blackwell 架构交付延迟的一种方式，而 Xavier GX100 将于 2025 年推出（也许非常接近 Blackwell）这一事实告诉您，事情已经发生了。也许 Nvidia 会从 Blackwell 开始，转向秋季发布和交付其数据中心 GPU？无论 H200 GPU 加速器是什么，值得注意的是没有 B200 或 X200 紧随其后。这款H200是一匹只会耍花招的小马。

这里有一些需要考虑的事情：当产品的需求是您可以交付的产品的 3 倍、4 倍、甚至 5 倍时，路线图的节奏并不重要，而供应量更重要。如果云和一些人工智能初创公司获得了所有Hopper GPU，而其他人都无法获得，那又怎样呢？这意味着任何拥有矩阵数学引擎和人工智能框架的人都有机会出售他们得到的任何东西。

因此，我们看到这种情况正在发生，即使是像英特尔备受推崇的Gaudi加速器系列这样的死胡同产品。是的，Gaudi 2 可以与 Nvidia A100 甚至 H100 抗衡，是的，Gaudi 3 即将推出，其性能将提高2倍，但那又怎样呢？没有Gaudi 4，但有一个名为“Falcon Shores”的 GPU，具有 Gaudi 矩阵数学单元和 Gaudi 以太网互连。在正常情况下，没有人会购买 Gaudi 2。但在生成式 AI 淘金热中，你可以获得的任何矩阵数学单元都必须这样做。

细研究了这个路线图后，这也许是最重要的事情。Nvidia 拥有大量现金来垄断 HBM 内存和 CoWoS 基板市场，并远远领先于也需要这些组件来构建加速器的竞争对手。它可以使用即将推出的组件，例如台积电非常有趣的 CoWoS-L 封装技术，该技术允许对小芯片进行相对正常的基板封装，但在小芯片之间设置小型中介层，需要大量电线来驱动高电压。这些小芯片各部分之间的带宽。（CoWoS-L 有点像英特尔的 EMIB。）如果愿意的话，它有足够的现金来制造两芯片 H200 和四芯片 B100。Nvidia 已经证明了四 GPU 设计的可行性，但公平地说，MI300X 表明 AMD 可以通过在巨大的 L3 缓存之上堆叠八个小芯片来做到这一点。

Nvidia 最好不要乱搞，因为在硬件方面，AMD 绝对不会。那些热爱开源框架和模型的人正在密切关注 PyTorch 2.0 框架和 LLaMA 2 大型语言模型，由于Meta开明的利己主义，它们没有任何障碍。PyTorch 显然在 AMD 处理器上运行得很好，我们认为在 MI300A 和 MI300X 上会做得更好。

因此，从 2024 年开始，Nvidia 芯片的步伐确实加快了每年升级的节奏。

请记住，你可以建造一条护城河，但当井干涸时你就不能喝它，因为水很臭，可能来自敌人的尸体

最后，我们来回顾一下semianalysis当时是怎么说的。

B100，上市时间高于一切

我们相信 Nvidia 的 B100 将在 2024 年第三季度大批量发货，并在 2024 年第二季度提供一些早期样品。从我们听到的性能和总体拥有成本来看，它击败了 Amazon Trainium2、Google TPUv5、AMD MI300X、Intel Gaudi 3 和 Microsoft Athena ，即使考虑到从设计合作伙伴/AMD/台积电购买这些芯片所支付的利润要低得多。

我们的理解是，与最初的“计划”相比，Nvidia 做出了多项妥协，以便将 B100 更快推向市场。例如，Nvidia 希望将功耗设定为更高水平 1,000W，但他们最初会坚持使用 H100 的 700W。这使得 Nvidia 在 B100 变体上市时能够坚持使用空气冷却。

Nvidia 最初也坚持在 B100 上使用 PCIe 5.0。5.0 和 700W 的组合意味着它可以直接插入 H100 的现有 HGX 服务器中，从而大大提高供应链更早提高产量和出货量的能力。决定坚持使用 5.0 的部分原因是 AMD 和英特尔在 PCIe 6.0 集成方面远远落后。Nvidia 自己的内部团队也没有准备好使用 PCIe 6.0 CPU，此外他们会使用更快的 C2C 样式链接。

ConnectX-8 稍后配备了集成 PCIe 6.0 交换机，但还没有人为此做好准备。我们的理解是，Broadcom 和 Astera Labs 只会在今年年底为 PCIe 6.0 重定时器做好批量出货的准备，并且考虑到这些基板的尺寸，仍然需要许多重定时器。这意味着最初的 B100 将限制为 3.2T，而 ConnectX-7 则限制为 400G，而不是 Nvidia 幻灯片声称的每 GPU 800G。保持空气冷却、电源、PCIe 和网络速度相同，使其非常易于制造/部署。

稍后Nvidia将推出1000W版本，需要水冷。这个变体出现得稍晚一些，并且将通过 ConnectX-8 实现每 GPU 网络的完整 800G。这些 SerDes 对于以太网/InfiniBand 仍然是 8x100G。虽然每个 GPU 的网络速度翻倍，但基数减半，因为它们仍然必须经过相同的 51.2T 交换机。B100 一代将不存在 102.4T 交换机。

有趣的是，我们听说 Nvidia 正在转向 B100 上的 224G SerDes NVLink 组件，如果他们能让它发挥作用，那就太棒了。与我们交谈过的大多数人都认为 224G 不可靠，并且不可能在 2024 年实现，除了 Nvidia 的人。我们不知道，但他们很可能在 2024 年坚持使用 112G，但我们目前倾向于 Nvidia 采取激进的态度。请注意，Google、Meta 和 Amazon 拥有 224G 的 AI 加速器，目标是 2026/2027 年以上量产，而不是像 Nvidia 那样 2024/2025 年。Nvidia 将击败他们的竞争对手。

我们听说这款 GPU 仍然是台积电的 N4P，而不是基于 3nm 的工艺技术。考虑到台积电的 3nm 对于如此大的芯片尺寸来说还不成熟，这是有道理的。根据其基板供应商 Ibiden 传闻的基板尺寸，Nvidia 似乎已转向具有 8 或 12 个 HBM 堆栈的 2 个单片大型芯片 MCM。这与 SambaNova 和英特尔明年的芯片类似的宏观设计。

Nvidia 没有像 AMD 那样使用任何疯狂的hybrid bonding，因为他们需要出货非常大的容量，而成本是他们的一个大问题。我们相信这两种 B100 变体将具有与 MI300X 相似或更多的内存容量以及更多的内存带宽。风冷 B100 可以有 6.4Gbps 堆栈，但水冷版本可以高达 9.2Gbps。

Nvidia还展示了GB200和B40。G 代表 GB200 和 GX200，因此它显然是一个占位符，因为 Nvidia 将推出新的基于 Arm 的 CPU。他们不会继续使用 Grace 这么久。我们认为 B40 是 B100 的一半，只有 1 个单片 N4P 芯片和多达 4 或 6 个 HBM 堆栈。与 L40S 不同，这对于较小模型的推断是有意义的。

X100，致命一击

最值得注意的是 Nvidia 的“X100”时间表。该时间表将与 AMD 目前的 MI400 时间表相匹配。AMD MI300X 的策略是在 H100 推出一年后推出。AMD 希望通过在技术上积极进取，MI300X 在一个令人印象深刻的封装中填充更多的计算和内存，与一年前的 H100 相比，可以在纯硬件上超越 Nvidia。

Nvidia 发现，他们的 2 年数据中心 GPU 产品节奏可以为竞争对手打开一扇窗口，试图利用更新的芯片在市场上站稳脚跟。现在，英伟达正在通过将产品节奏加快到每年一次来关闭这一窗口。“X100”预计于 2025 年推出，仅比 B100 晚一年。

鉴于这款 GPU 距离流片还很远，与 B100 不同的是，B100 已经已经Tape out了，事情仍然悬而未决。英伟达从未讨论过下一代之后的问题，所以这是史无前例的。

这个名字也显然不是“X100”。Nvidia 一直以 Ada Lovelace、Grace Hopper 和 Elizabeth Blackwell 等杰出女科学家的名字来命名他们的 GPU 代号。对于X来说，唯一符合逻辑的人就是研究半导体和金属能带结构的中国女性科学家谢希德。不过，，我们对此表示高度怀疑，尽管这可能是英伟达计划在下周传闻出口限制后再次向中国出售 GPU 的方式。

抛开笑话不谈，这个“规格”不值得猜测，因为网表甚至还没有完成。唯一有交集的是台积电的N3X的使用。

编辑/Jeffrey

近日，知名分析師郭明錤披露英偉達下一代AI芯片R系列/R100 AI芯片的相關信息。據他所說，該芯片將於2025年4季度進入量產，系統/機架解決方案可能會在2026年1H20開始量產。

在工藝方面，R100將採台積電的N3製程 (vs. B100採用台積電的N4P) 與CoWoS-L封裝 (與B100相同)。與此同時，R100採用約4x reticle設計 (vs. B100的3.3x reticle設計)。

來到Interposer尺寸方面，按照郭明淇的說法，英偉達尚未定案，但會有2–3種選擇。

至於備受關注的HBM方面，R100預計將搭配8顆HBM4。

同時，英偉達GR200的Grace CPU將採台積電的N3製程 (vs. GH200/GB200的CPU採用台積電N5)。

按照郭明淇所說，Nvidia已理解到AI服務器的耗能已成爲CSP/Hyperscale採購與資料中心建置挑戰，故R系列的芯片與系統方案，除提升AI算力外，耗能改善亦爲設計重點。

英偉達芯片路線圖，深度解讀

2023年10月，英偉達更新了其最新數據中心路線圖，其激進的更新幅度更新了所有人。首先，我們先回顧一下英偉達過去幾年的路線圖。以下是2021年 4 月舉行的 GTC 2021 上發佈的內容：

這是“Hopper”之後的更新版，在上面的路線圖中被稱爲“Ampere Next”，在 2022 年 Computex 上發佈：

以下是我們認爲今年早些時候發佈的路線圖的更新，其中添加了用於人工智能推理、可視化和元宇宙處理卡的“Lovelace”GPU 系列：

最後，這是英偉達近來發布的路線圖，由semianalysis首先披露。

如果過去的趨勢是未來趨勢的指標——當芯片製造商向其超大規模和雲構建商客戶承諾兩年推出一次的節奏時，它們肯定應該是未來趨勢的指標，就像英偉達幾年前所做的那樣——那麼我們絕對期待新架構的 Blackwell GB100 GPU 加速器將於明年 3 月至 5 月左右推出。但正如您在下面所看到的，Nvidia 主要 GPU 發佈的節奏通常不到兩年。所以這是一種回歸形式。

以下是數據中心 GPU 在過去 21 年中的推出方式，數據中心 GPU 計算至關重要：

“Kepler”K10 和 K20，2012 年 5 月
“Kepler”K40，2013 年 5 月
“Kepler”K80，單卡上有兩個 GK210B GPU
“Maxwell”M40，2015 年 11 月，主要用於 AI 推理，並非真正用於 HPC 或 AI 訓練
“Pascal”GP100，2016 年 4 月
“Volta”GV100，2017 年 5 月（原始 Pascal 的某些功能直到 Volta 才出現）
“Ampere”GA100，2020 年 5 月
“Hopper”GH100，2022 年 3 月
“Hopper-Next”H200，2024年春季？
“Blackwell”GB100，2024年夏季還是秋季？
“Xavier”GX100，2025年春夏

我們很清楚，Hopper-Next 應該是 Blackwell GB100 GPU，而現在路線圖上的 GH200 是一種權宜之計，試圖轉移人們對 AMD看起來將於 12 月推出的CPU-GPU 混合設備“Antares” Instinct MI300X GPU 和 MI300A 混合顯卡的注意力。AMD 將在這些設備上擁有 HBM 內存容量和帶寬優勢，以及用於 CPU 和 GPU 的聚合內存，而 Nvidia 不能告訴所有人 H100NVL雙倍卡就是答案。

因此，有兩種方法可以使用即將推出的 Hopper-Next H200 GPU。我們贊成但僅基於預感的一個是 Nvidia 測試將兩個 Hopper GH100 GPU 放入一個插槽中，因爲它已經使用其 Arm 服務器 CPU 與其 Grace-Grace 超級芯片配合使用。我們在一年半前建議它這樣做。該芯片的性能可以稍微降低，以獲得更合適的功率範圍，並留出空間來容納更高的 HBM3e 內存堆棧，從而提高目前數據中心非常缺乏的內存與計算比率。

GPU 插槽中的芯片數量並不像每個插槽中的帶寬那麼重要。每個插槽需要兩個 GPU，但內存帶寬需要四倍、六倍或八倍才能真正領先並提高 GPU 的性能。我們半開玩笑地說：擁有一半 Hopper GPU 可能更有意義——稱之爲 Hop？– 如果您確實想提高 AI 工作負載的性能，則需要 2 倍的內存容量和 2 倍的內存帶寬。

有些人認爲H200只是內存升級，在相同的GH100 GPU上提供2倍的內存容量和2倍的內存帶寬。我們認爲會對它進行一些調整，並且可能會進行更深層次的垃圾分類，以至少提高性能。

這個路線圖中還有另一件令人煩惱的事情：根據 Nvidia 的最新路線圖，未來的 Blackwell GB100 GPU 和 B100 加速器到底什麼時候出現？你看到上面有日期嗎？我們推測是在 2024 年末，但 Blackwell 仍有一定的餘地可以推遲到 2025 年初。（我們認爲 Blackwell 芯片很可能以伊麗莎白·布萊克威爾 (Elizabeth Blackwell) 命名，她是第一位在美國獲得醫學學位的女性（在紐約州北部的日內瓦醫學院，現在是雪城大學的一部分），也是第一位在英國總醫學委員會醫學登記冊上登記的女性。）

無論如何，Blackwell GB100 GPU 都非常接近 GX100 GPU（我們將其代號爲“Xavier”），預計將於 2025 年推出，我們認爲是在今年晚些時候，但也可能不是。（除了漫威超級英雄宇宙中虛構的Charles Xavier 之外，我們找不到姓氏以 X 結尾的重要著名科學家，是的，我們知道 Nvidia 已經在其嵌入式系統之一中使用了該代號.“X”可能只是意味着它是一個變量，而 Nvidia 尚未決定有一個代號。）

我們認爲 Nvidia 需要更多時間來調整 Blackwell 的 GPU 架構，並且考慮到 AI 模型變化的速度，如果事情很重要，例如 Volta 的 Tensor Cores 或稀疏性，Nvidia 應該這樣做是合理且正確的支持是針對 Ampere，或者 Transformation Engine 和 FP8 是針對 Hopper。

解決這個問題後，我們對當前的 Nvidia 路線圖有一些需要挑選的地方。例如，BlueField DPU 發生了什麼？

DPU 是 Nvidia 硬件堆棧不可或缺的一部分，提供網絡、安全和虛擬化卸載，並將超級計算機轉變爲多租戶雲。Hopper GPU 是在 2022 年 3 月的春季 GTC 會議上宣佈的，而不是在 2023 年，並且也在 2022 年末發貨。H100 NVL 和 Lovelace L40 失蹤了。“Ampere”A100 於 2020 年問世，而不是 2021 年。Quantum 2 400 Gb/秒 InfiniBand 和 400 Gb/秒 Spectrum-3 以太網於 2021 年發佈，並於 2022 年（而不是 2023 年）開始發貨。速度爲 800 Gb/秒以太網和 InfiniBand 的運行速度比我們在 2020 年 11 月與 Nvidia 交談時的預期晚了大約一年。順便說一句，上一代 200 Gb/秒 Quantum InfiniBand 於 2016 年發佈，並於 2017 年發貨。那裏存在很大的差距，因爲所有試圖推銷從 200 Gb/秒到 400 Gb/秒的跳躍的公司都存在這個差距。

鑑於這一切，我們更新了 Nvidia 官方路線圖：

顯然，生成式人工智能的爆炸式增長消除了數據中心和超級計算高層對計算和互連的猶豫。因此，每年一次的節奏是有意義的。但如果不出現一些滑點，可能很難維持。事實上，這個路線圖可以被視爲彌補 Blackwell 架構交付延遲的一種方式，而 Xavier GX100 將於 2025 年推出（也許非常接近 Blackwell）這一事實告訴您，事情已經發生了。也許 Nvidia 會從 Blackwell 開始，轉向秋季發佈和交付其數據中心 GPU？無論 H200 GPU 加速器是什麼，值得注意的是沒有 B200 或 X200 緊隨其後。這款H200是一匹只會耍花招的小馬。

這裏有一些需要考慮的事情：當產品的需求是您可以交付的產品的 3 倍、4 倍、甚至 5 倍時，路線圖的節奏並不重要，而供應量更重要。如果雲和一些人工智能初創公司獲得了所有Hopper GPU，而其他人都無法獲得，那又怎樣呢？這意味着任何擁有矩陣數學引擎和人工智能框架的人都有機會出售他們得到的任何東西。

因此，我們看到這種情況正在發生，即使是像英特爾備受推崇的Gaudi加速器系列這樣的死衚衕產品。是的，Gaudi 2 可以與 Nvidia A100 甚至 H100 抗衡，是的，Gaudi 3 即將推出，其性能將提高2倍，但那又怎樣呢？沒有Gaudi 4，但有一個名爲“Falcon Shores”的 GPU，具有 Gaudi 矩陣數學單元和 Gaudi 以太網互連。在正常情況下，沒有人會購買 Gaudi 2。但在生成式 AI 淘金熱中，你可以獲得的任何矩陣數學單元都必須這樣做。

細研究了這個路線圖後，這也許是最重要的事情。Nvidia 擁有大量現金來壟斷 HBM 內存和 CoWoS 基板市場，並遠遠領先於也需要這些組件來構建加速器的競爭對手。它可以使用即將推出的組件，例如台積電非常有趣的 CoWoS-L 封裝技術，該技術允許對小芯片進行相對正常的基板封裝，但在小芯片之間設置小型中介層，需要大量電線來驅動高電壓。這些小芯片各部分之間的帶寬。（CoWoS-L 有點像英特爾的 EMIB。）如果願意的話，它有足夠的現金來製造兩芯片 H200 和四芯片 B100。Nvidia 已經證明了四 GPU 設計的可行性，但公平地說，MI300X 表明 AMD 可以通過在巨大的 L3 緩存之上堆疊八個小芯片來做到這一點。

Nvidia 最好不要亂搞，因爲在硬件方面，AMD 絕對不會。那些熱愛開源框架和模型的人正在密切關注 PyTorch 2.0 框架和 LLaMA 2 大型語言模型，由於Meta開明的利己主義，它們沒有任何障礙。PyTorch 顯然在 AMD 處理器上運行得很好，我們認爲在 MI300A 和 MI300X 上會做得更好。

因此，從 2024 年開始，Nvidia 芯片的步伐確實加快了每年升級的節奏。

請記住，你可以建造一條護城河，但當井榦涸時你就不能喝它，因爲水很臭，可能來自敵人的屍體

最後，我們來回顧一下semianalysis當時是怎麼說的。

B100，上市時間高於一切

我們相信 Nvidia 的 B100 將在 2024 年第三季度大批量發貨，並在 2024 年第二季度提供一些早期樣品。從我們聽到的性能和總體擁有成本來看，它擊敗了 Amazon Trainium2、Google TPUv5、AMD MI300X、Intel Gaudi 3 和 Microsoft Athena ，即使考慮到從設計合作伙伴/AMD/台積電購買這些芯片所支付的利潤要低得多。

我們的理解是，與最初的“計劃”相比，Nvidia 做出了多項妥協，以便將 B100 更快推向市場。例如，Nvidia 希望將功耗設定爲更高水平 1,000W，但他們最初會堅持使用 H100 的 700W。這使得 Nvidia 在 B100 變體上市時能夠堅持使用空氣冷卻。

Nvidia 最初也堅持在 B100 上使用 PCIe 5.0。5.0 和 700W 的組合意味着它可以直接插入 H100 的現有 HGX 服務器中，從而大大提高供應鏈更早提高產量和出貨量的能力。決定堅持使用 5.0 的部分原因是 AMD 和英特爾在 PCIe 6.0 集成方面遠遠落後。Nvidia 自己的內部團隊也沒有準備好使用 PCIe 6.0 CPU，此外他們會使用更快的 C2C 樣式鏈接。

ConnectX-8 稍後配備了集成 PCIe 6.0 交換機，但還沒有人爲此做好準備。我們的理解是，Broadcom 和 Astera Labs 只會在今年年底爲 PCIe 6.0 重定時器做好批量出貨的準備，並且考慮到這些基板的尺寸，仍然需要許多重定時器。這意味着最初的 B100 將限制爲 3.2T，而 ConnectX-7 則限制爲 400G，而不是 Nvidia 幻燈片聲稱的每 GPU 800G。保持空氣冷卻、電源、PCIe 和網絡速度相同，使其非常易於製造/部署。

稍後Nvidia將推出1000W版本，需要水冷。這個變體出現得稍晚一些，並且將通過 ConnectX-8 實現每 GPU 網絡的完整 800G。這些 SerDes 對於以太網/InfiniBand 仍然是 8x100G。雖然每個 GPU 的網絡速度翻倍，但基數減半，因爲它們仍然必須經過相同的 51.2T 交換機。B100 一代將不存在 102.4T 交換機。

有趣的是，我們聽說 Nvidia 正在轉向 B100 上的 224G SerDes NVLink 組件，如果他們能讓它發揮作用，那就太棒了。與我們交談過的大多數人都認爲 224G 不可靠，並且不可能在 2024 年實現，除了 Nvidia 的人。我們不知道，但他們很可能在 2024 年堅持使用 112G，但我們目前傾向於 Nvidia 採取激進的態度。請注意，Google、Meta 和 Amazon 擁有 224G 的 AI 加速器，目標是 2026/2027 年以上量產，而不是像 Nvidia 那樣 2024/2025 年。Nvidia 將擊敗他們的競爭對手。

我們聽說這款 GPU 仍然是台積電的 N4P，而不是基於 3nm 的工藝技術。考慮到台積電的 3nm 對於如此大的芯片尺寸來說還不成熟，這是有道理的。根據其基板供應商 Ibiden 傳聞的基板尺寸，Nvidia 似乎已轉向具有 8 或 12 個 HBM 堆棧的 2 個單片大型芯片 MCM。這與 SambaNova 和英特爾明年的芯片類似的宏觀設計。

Nvidia 沒有像 AMD 那樣使用任何瘋狂的hybrid bonding，因爲他們需要出貨非常大的容量，而成本是他們的一個大問題。我們相信這兩種 B100 變體將具有與 MI300X 相似或更多的內存容量以及更多的內存帶寬。風冷 B100 可以有 6.4Gbps 堆棧，但水冷版本可以高達 9.2Gbps。

Nvidia還展示了GB200和B40。G 代表 GB200 和 GX200，因此它顯然是一個佔位符，因爲 Nvidia 將推出新的基於 Arm 的 CPU。他們不會繼續使用 Grace 這麼久。我們認爲 B40 是 B100 的一半，只有 1 個單片 N4P 芯片和多達 4 或 6 個 HBM 堆棧。與 L40S 不同，這對於較小模型的推斷是有意義的。

X100，致命一擊

最值得注意的是 Nvidia 的“X100”時間表。該時間表將與 AMD 目前的 MI400 時間表相匹配。AMD MI300X 的策略是在 H100 推出一年後推出。AMD 希望通過在技術上積極進取，MI300X 在一個令人印象深刻的封裝中填充更多的計算和內存，與一年前的 H100 相比，可以在純硬件上超越 Nvidia。

Nvidia 發現，他們的 2 年數據中心 GPU 產品節奏可以爲競爭對手打開一扇窗口，試圖利用更新的芯片在市場上站穩腳跟。現在，英偉達正在通過將產品節奏加快到每年一次來關閉這一窗口。“X100”預計於 2025 年推出，僅比 B100 晚一年。

鑑於這款 GPU 距離流片還很遠，與 B100 不同的是，B100 已經已經Tape out了，事情仍然懸而未決。英偉達從未討論過下一代之後的問題，所以這是史無前例的。

這個名字也顯然不是“X100”。Nvidia 一直以 Ada Lovelace、Grace Hopper 和 Elizabeth Blackwell 等傑出女科學家的名字來命名他們的 GPU 代號。對於X來說，唯一符合邏輯的人就是研究半導體和金屬能帶結構的中國女性科學家謝希德。不過，，我們對此表示高度懷疑，儘管這可能是英偉達計劃在下週傳聞出口限制後再次向中國出售 GPU 的方式。

拋開笑話不談，這個“規格”不值得猜測，因爲網表甚至還沒有完成。唯一有交集的是台積電的N3X的使用。

編輯/Jeffrey

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

英伟达下一代GPU披露：集成八个HBM 4，台积电N3制程