英偉達，被彎道超車？

作者：邵逸琦

据不完全统计，目前半导体行业已开发出约 1000 种封装类型，按互连类型来划分，其中包括了引线键合、倒装芯片、晶圆级封装 (WLP) 和硅通孔 (TSV)等，无数个die通过互联器件相连接，构成了如今日渐繁盛的封装市场。

其中的先进封装，成为了近两年最受关注和欢迎的领域，先进制程进展越缓慢，它的重要性就愈发突出， $美国超微公司 (AMD.US)$、$英特尔 (INTC.US)$和$英伟达 (NVDA.US)$这传统的“御三家”纷纷涉足，从2D封装转战2.5D封装，还向3D封装这座高峰发起了挑战。

2023年6月，AMD在旧金山正式推出了MI300X与MI300A两款AI加速器，其中MI300X 采用了8 XCD，4个IO die，8个HBM3堆栈，高达256MB的AMD Infinity Cache和3.5D封装的设计，支持 FP8 和稀疏性等新数学格式，是一款全部面向 AI 和 HPC 工作负载的设计，而它的晶体管也达到了1530 亿颗，成为了 AMD 迄今为止制造的最大芯片。

AMD表示，MI300X 在人工智能推理工作负载中的性能比英伟达 H100高出1.6倍，在训练工作中的性能与 H100相当，从而为业界提供了亟需的高性能替代品，以取代英伟达的GPU。此外，这些加速器的 HBM3 内存容量也是英伟达 GPU 的两倍多，达到惊人的 192 GB，使其 MI300X 平台能够支持每个系统两倍多的 LLM，并能运行比 H100 HGX 更大的模型。

最受瞩目的当然还是AMD所宣称的3.5D封装，AMD表示，通过引入3D混合键合和2.5D的硅中介层，实现了全新的“3.5D封装”技术。

AMD 高级副总裁兼企业研究员 Sam Naffziger 表示：“这是真正令人惊叹的硅堆栈，提供了业界目前已知的最高密度性能。这一集成采用了$台积电 (TSM.US)$的两种技术，即 SoIC（集成芯片系统）和 CoWoS（晶片基板芯片）。前者（SoIC）使用混合键合技术将较小的芯片堆叠在较大的芯片之上，无需焊料就能直接连接每个芯片上的铜垫，其帮助高速缓冲存储V-Cache 芯片堆叠在最高端的 CPU 芯片上，而后者（CoWos）将芯片堆叠在一块更大的硅片上，这块硅片被称为内插板（interposer），用于容纳高密度互连。”

当英伟达还在H200中使用台积电CoWoS的2.5D封装时，AMD却率先一步，实现了台积电SoIC 3D封装和CoWoS 2.5D封装的结合，而它更早之前对Chiplet的布局，似乎早已为这次弯道超车做足了准备。

搭积木一样造芯片

首先我们来回顾一下MI300X和MI300A的具体架构，根据AMD官方的解释，MI300系列采用了台积电的 3D 混合键合 SoIC（集成电路上硅）技术，在四个底层 I/O 芯片之上对各种计算元件进行 3D 堆叠，无论是 CPU CCD（核心计算芯片）还是 GPU XCD。每个 I/O 芯片可以容纳两个 XCD 或三个 CCD。每个 CCD 与现有 EPYC 芯片中使用的 CCD 相同，每个 CCD 拥有八个超线程 Zen 4 核心。MI300A 使用了其中的三个 CCD 和六个 XCD，而 MI300X 使用了八个 XCD。

所谓 XCD，是AMD在GPU中负责计算的Chiplet，在MI 300X上，8个XCD包含了304 个CDNA 3 计算单元，那就意味着每个计算单元包含了34个CU。作为对比，AMD MI 250X 拥有220个CU，这是一个较大的飞跃。

而HBM 堆栈则采用了 2.5D 封装技术的标准中介层进行连接，每个 I/O 芯片都包含一个 32 通道 HBM3 内存控制器，用于托管 8 个 HBM 堆栈中的两个，从而为该设备提供了总共 128 个 16 位内存通道。MI300X 采用 12Hi HBM3 堆栈，容量为 192GB，而 MI300A 使用 8Hi 堆栈，容量为 128GB。

具体而言，AMD 的 CPU CCD 通过 3D 混合键合到底层 I/O 芯片，通过利用标准 2.5D 封装的GMI3接口进行通信，AMD 为此添加了一个新的焊盘通孔接口，可绕过 GMI3 链路，从而提供垂直堆叠芯片所需的 TSV。

5nm XCD GPU 芯片标志着 AMD GPU 设计的全面芯片化，XCD 和 IOD 具有硬件辅助机制，可将作业分解为更小的部分、分派它们并保持它们同步，从而减少主机系统开销，这些单元还具有硬件辅助的缓存一致性。

为了MI300系列封装的这一小步，AMD准备了多年的时间，最早的起源可以追溯到1965年，当时AMD工程师以 "芯片组 "概念为基础，开发出一种将每个大芯片拆分成小块的设计。

在和英特尔的CPU竞争中，推土机架构的失败让AMD的处境岌岌可危，它亟需一个低成本的解决方案来与英特尔更先进的架构竞争，Zen应运而生，新一代Ryzen处理器采用芯片组或 MCM（多芯片模块）架构，标志着整个 PC 和芯片制造行业的彻底转变。

Zen初代架构相对简单，采用了SoC 设计，从内核到 I/O 和控制器的所有内容都位于同一芯片上，同时引入了 CCX 概念，其中 CPU 核心被分为四核单元，并使用无限高速缓存进行组合，由两个四核 CCX 组成一块芯片，不过消费级仍然是单芯片的设计。

而Zen+ 的情况基本上保持不变（采用了更先进节点），但 Zen 2 是一个重大升级，这是第一个基于Chiplet的消费类 CPU 设计，具有两个计算芯片或CCD加一个 I/O 芯片。AMD 在 Ryzen 9 上添加了第二个 CCD，其核心数量在消费者领域前所未见。

Zen 3进一步完善了Chiplet设计，取消了CCX并将八个核心和32MB缓存合并到一个统一的CCD中，这大大减少了缓存延迟并简化了内存子系统，AMD 锐龙处理器首次提供了比对手英特尔更好的游戏性能。Zen 4 除了缩小 CCD 设计外，没有对 CCD 设计做出显着改变。

而EPYC系列中，第一代 AMD EPYC 处理器中基于四个复制的小芯片。每个处理器都有 8 个“Zen”CPU 内核、2 个 DDR4 内存通道和 32 个 PCIe 通道，以满足性能目标，AMD 必须为四个小芯片之间的 Infinity Fabric 互连提供一些额外的空间。

第二代EPYC的第一个Chiplet称为I/O die(IOD)，采用12nm工艺，包含8个DDR4内存通道，128个PCIe gen4 I/O通道以及其他I/O（如USB和SATA, SoC数据结构，和其他系统级功能）。第二个Chiplet则是复合核心die(CCD)，采用7nm工艺。在实际产品中，AMD将一个IOD与多达8个ccd组装在一起，每个CCD提供8个Zen 2 CPU内核，因而可以一次提供64个内核。

第三代EPYC上，AMD提供多达64个核心和128个线程，采用AMD最新的Zen 3核心。该处理器设计有八个Chiplet，每个Chiplet有八个核心，这次Chiplet中的所有八个核心都是连接的，从而实现了有效的双 L3 缓存设计，以实现较低的整体缓存延迟结构。

第四代EPYC中，AMD在原来的架构上采用多达 12 个 5 纳米复杂核心芯片 (CCD) 的小芯片设计，其中I/O 芯片采用 6nm 工艺技术，而其周围的 CCD 则采用 5nm 工艺。每个芯片具有 32MB 的 L3 缓存和 1 MB 的 L2 缓存。

这些CPU最终为MI300系列的Chiplet铺平了技术方面的道路。

2021年1月，AMD申请并通过了一项MCM GPU Chiplet 设计的专利，AMD在美国专利商标局公开了一项标题为“使用高带宽交联的 GPU Chiplets”的专利，专利号为“US 2020/0409859 A1”，在专利描述中，AMD概述了Chiplet设计中的图形芯片未来的样子，GPU Chiplet应直接与 CPU 通信，而其他小Chiplet通过无源、高带宽交叉链路相互通信，并作为片上系统 (SoC) 布置在相应的中介层上。

2023年11月，AMD又公开了一项关于Chiplet 设计的专利，其描述了一种与现有芯片布局截然不同的 GPU 设计，即在大型主 GPU 芯片周围分布大量内存缓存芯片（MCD），其描述了一种将几何工作量分配到多个芯片上的系统，所有芯片并行工作。此外，没有一个 "中央芯片 "会将工作分配给下属芯片，因为它们都将独立运行。该专利表明，AMD 正在探索用芯片组来制造 GCD，而不仅仅是一块巨大的硅片。

从消费领域到超算领域，再到AI领域， AMD利用Chiplet掀起了一场红色风暴，而为这场风暴不断提供助力的，正是来自台积电的先进封装技术。

AMD背后的人

在接受IEEE Spectrum采访时，AMD产品技术架构师Sam Naffziger讲到：“五六年前，我们开始研发 EPYC 和 Ryzen CPU 系列。当时，我们进行了广泛的研究，以找到最适合连接芯片的封装技术。这是一个涉及成本、性能、带宽密度、功耗和制造能力的复杂方程式。想出好的封装技术相对容易，但要真正做到大批量、低成本地生产，则完全是两码事。”

2011年，台积电首次开发了2.5D封装 CoWoS，随即就被赛灵思的高端 FPGA 采用，但由于其价格过于昂贵，在封装市场上迟迟打不开局面，直到AI浪潮的席卷全球，英伟达、AMD、谷歌、英特尔纷纷抛来了橄榄枝，将CoWoS推上了最热门先进封装的宝座。

下面是台积电的 CoWoS（晶圆基板上芯片）封装示意图。CoWoS 允许在单个封装上集成多个芯片或裸片。这样就能将不同类型的芯片（如处理器、内存和图形芯片）集成到单个封装中，从而提高性能、降低功耗并缩小外形尺寸。多个芯片通过硅通孔（TSV）垂直堆叠，并用微凸块互连。与传统的2D封装相比，这种堆叠方法可以缩短互连长度、降低功耗并提高信号完整性。

CoWoS在AMD的Chiplet上出力不少，通过将大型单片芯片划分为较小的芯片组，设计人员可以专注于优化每个芯片组的特定功能。，可实现更好的电源管理、更高的时钟速度和更高的每瓦性能，同时还有助于将这些高性能芯片与内存等其他组件集成到一个封装中，从而进一步提高系统性能。

CoWoS为之后的3D封装提供了宝贵经验，2018年，台积电推出了SoIC 技术，其作为一种创新的多晶片堆叠技术，主要是针对 10nm 以下的工艺技术进行晶圆级接合，与CoWoS技术相比，SoIC可提供更高的封装密度、更小的键合间隔，还可以与CoWoS/InFo共用，实现多个Chiplet集成。

在IEDM 会议上，台积电副总裁介绍了该公司 SoIC 路线图的更多细节。根据路线图，台积电首先采用目前可用的 9μm 键合间距。然后，它计划推出 6μm 间距，接着是 4.5μm 和 3μm。换而言之，台积电希望每两年左右推出一种新的键距，每一代产品的缩放比例提高 70%。

他还用AMD的处理器作为SoIC应用的例子，AMD 设计了基于 7nm 工艺的处理器和 SRAM，然后交由台积电生产，最后以 9μm 键合间距的SoIC技术来连接芯片。

这里提到的，正是AMD在2021年推出的代号为Milan-X的EPYC处理器里加入的3D V-Cache缓存，这也是世界上首款采用3D芯片堆叠的数据中心处理器。

AMD 表示，3D V-Cache 在当前第三代 EPYC CPU 每个计算芯片 32 MB 的 SRAM 基础上又增加了 64 MB，使 Milan-X 每个计算芯片的三级缓存达到 96 MB，由于 Milan-X 处理器架构中最多有 8 个计算芯片，因此 CPU 中共享的 L3 缓存最多可达 768 MB，额外的 L3 缓存可以缓解内存带宽压力并减少延迟，从而显着提高应用程序性能。

能实现这一步，台积电的 SoIC 技术功不可没，其将 V-Cache 中的互连永久绑定到 CPU，缩小了芯片之间的距离，从而实现 2 TB/s 的通信带宽，与第三代 EPYC CPU 使用的 2D 小芯片封装相比，Milan-X CPU 中的互连的每比特能耗仅为三分之一，互连密度提高了 200 倍，功效提高了三倍。

这一项技术后续也被下放到了Ryzen 7 5800X3D处理器之中，开始在消费市场中大展身手，包括最新的Ryzen 9 7950X3D，同样用到了3D V-Cache的技术。

2023年，台积电在北美技术论坛上着重介绍了全新的3DFabric技术，其主要由先进封装、3D芯片堆叠和设计等三部分组成。通过先进封装，可以在单一封装中置入更多处理器及存储器，从而提升运算效能；在设计支持上，台积电推出开放式标准设计语言的最新版本，协助芯片设计人员处理复杂大型芯片。

2011年至2023年，台积电十余年的封装技术演进让AMD的Chiplet梦想终于得以实现，而MI300系列也正是建立在最新的3DFabric基础之上，将台积电SoIC 前端技术与 CoWoS后端技术相集成，堪称量产先进封装技术的集大成者。

蓝色巨人的封装版图

对于英特尔来说，封装同样是它发展的重心之一，而且与AMD不同的是，英特尔选择了自己搞封装，力图掌握芯片研发生产应用的全流程。

英特尔对标台积电CoWoS的2.5D封装技术被称为EMIB， 2017年正式应用于产品，英特尔的数据中心处理器Sapphire Rapid就是采用的这项技术；第一代的3D IC封装则称为Foveros，2019年时已用于英特尔计算机处理器Lakefield。

EMIB最大特色就是通过硅桥（Sillicon Bridge），从下方来连接存储器（HBM）和运算等各种芯片（die）。也因为硅桥会埋在基板（substrate）中并连接芯片，让存储器和运算芯片能直接相连，加快芯片本身的能效。

Foveros则是3D堆栈，将存储器、运算和架构等不同功能的芯片组堆栈起来后，运用铜线穿透每一层，达到连接的效果，最后，工厂会将已经堆栈好的芯片送到封装厂座组装，将铜线与电路板上的电路做接合。

2022年，英特尔首次将下2.5D和3D封装技术融合在一起，命名为Co-EMIB，这是一个将EMIB和Foveros技术相结合的创新应用，能够让两个或多个Foveros元件互连，并且基本达到单芯片的性能水准，藉由这一项技术，推出了当时晶体管规模最大的SoC——Ponte Vecchio，主要面向高性计算市场。

每颗 Ponte Vecchio 处理器实际上都是使用英特尔Co-EMIB 连接在一起的两个Chiplet的镜像集，Co-EMIB 在两个 3D Chiplet堆栈之间形成高密度互连的桥梁，桥本身是嵌入封装有机基板中的一小块硅。硅上的互连线可以比有机基板上的互连线更窄。Ponte Vecchio 与封装基板的普通连接间隔为 100 微米，而 Co-EMIB 芯片中的连接密度几乎是其两倍，Co-EMIB 芯片还将高带宽存储器 (HBM) 和 Xe Link I/O Chiplet连接到“基础硅”（最大的Chiplet），其他芯片则堆叠在该“基础硅”上。

基础芯片还使用了英特尔的 3D 堆叠技术，称为 Foveros，该技术在两个芯片之间建立了密集的芯片到芯片垂直连接阵列。这些连接仅相距 36 微米，并通过“面对面”连接芯片来实现；也就是说，一个芯片的顶部粘合到另一个芯片的顶部。信号和电源通过TSV硅通孔进入该堆栈，硅通孔是相当宽的垂直互连，直接穿过大部分硅。Ponte Vecchio 上使用的 Foveros 技术是对用于制造英特尔Lakefield 移动处理器的技术的改进，信号连接密度增加了一倍。

做到这一点并不容易，英特尔院士Wilfred Gomes表示，这需要在产量管理、时钟电路、热调节和功率传输方面进行创新。例如，英特尔工程师选择为处理器提供高于正常水平的电压（1.8 伏），以便降低电流，简化封装，基片中的电路将电压降低到接近 0.7 伏，以便在计算芯片上使用，而且每个计算芯片都必须在基片中拥有自己的电源域。

对于英特尔来说，Ponte Vecchio将它目前已有的先进封装技术推到了巅峰，与AMD的MI300系列相比，也未逊色多少，可谓是如今先进封装的红蓝双星。

实际上，英特尔虽然在先进制程上略落后于台积电，但在先进封装却与台积电不相上下。英特尔表示，自己灵活的代工服务，允许客户混合搭配其晶圆制造和封装产品，作为老牌厂商的它，晶圆封装厂分散在世界各地，可以利用地理优势来扩大产能和服务。

英特尔CEO Pat Gelsinge在接受采访时也表示，英特尔拥有下一代内存架构的先进能力，以及3D 堆叠的优势，既能用于Chiplet，也能用于人工智能和高性能服务器的超大封装，未来我们将把这些技术应用到产品中，同时也将展示给代工厂（IFS）的客户、

为什么是Chiplet？

在看完AMD、英特尔以及台积电的技术历程后，相信许多人都会有一个疑问，为什么他们如此执着于3D封装和Chiplet呢？

原因源自半导体行业内部的需求，摩尔定律的出现，让不断提高的设备集成度能够继续适应相同的物理尺寸，光刻缩小可以使构建块缩小 30%，那么就可以在不增加芯片尺寸的情况下增加 42% 的电路。

但并非所有半导体器件都能享受这一红利，例如可以包含模拟电路的 I/O，其扩展速度约为逻辑的一半，这就让人不得不寻找新的出路。而且光刻缩小的成本也不便宜，采用 7nm 工艺加工的晶圆成本高于采用 14nm 工艺加工的晶圆成本，5nm 工艺的成本高于 7nm 工艺，依此类推……随着晶圆价格的上涨，Chiplet往往比单片更加经济实惠。

此外，由于新芯片设计需要设计和工程资源，并且由于新节点的复杂性不断增加，每个新工艺节点的新设计的典型成本也随之增加，这一的情况进一步激励人们创建可重复使用的设计。

Chiplet设计理念使这成为可能，因为只需改变芯片的数量和组合即可实现新的产品配置，通过将单个小芯片集成到 1、2、3 和 4 芯片配置中，可以从单个流片创建 4 种不同的处理器品种，而如果想把它们整合进一块芯片中，就需要 4 次单独的流片。

AMD 在其关于新款 Radeon RX 7900 系列 "Navi 31 "图形处理器的技术演示中，详细解释了为什么必须为高端图形处理器采用芯片组路线。

事实上，AMD 近十年里的 Radeon GPU 与CPU相比，不管是利润还是收入都不容乐观，在面临英伟达竞争的情况下，降低制造成本的必要性愈发突出，随着 GeForce "Ada Lovelace "一代的推出，英伟达继续押注在单片硅 GPU 上，即使是最大的 "AD102 "芯片也还是单片 GPU，这为 AMD 提供了一个降低 GPU 制造成本的机会。

Chiplet让AMD其能够和英伟达展开价格战，拿下更多的市场份额。最典型的例子是，AMD 对 Radeon RX 7900 XTX 和 RX 7900 XT 分别采用了相对激进的999美元和899美元定价，根据AMD 的官网数据，这两款产品有能力与英伟达 1199 美元的 RTX 4080 一决高下，在某些情况下，甚至有可能与 1599 美元的 RTX 4090 展开较量。

事实上，这就是Chiplet的最显著的优点之一，通过使用Chiplet，AMD可以快速提高良率并简化设计/验证，同时可以为每个小芯片选择最佳工艺。逻辑部分可以采用尖端工艺制造，大容量SRAM可以使用7nm左右的工艺制造，而I/O和外围电路可以使用12nm或28nm左右的工艺制造，从而减少了设计和制造成本。

此外，Chiplet也能帮助它轻松制造衍生类型，例如相同逻辑但不同外围电路，或相同外围电路但不同逻辑，而且可以混合使用来自不同制造商的小芯片，而不是局限在单个制造商上。

AMD如此，英特尔也不外乎是，AMD仰赖台积电已有的技术，全力研究芯片架构设计，英特尔就要稍微吃力一点，一方面研究先进制程和封装，另外一方面也要着手芯片与Chiplet的迭代改进，两家甚至还在封装上打起了擂台赛。

如今去评判比赛的胜负已经不重要了，因为3D封装与Chiplet逐渐从数据中心和AI加速器走向消费市场的PC处理器，最终惠及笔记本与手机，成为了大家认定的新趋势，

写在最后

与AMD和英特尔相比，英伟达在3D封装以及Chiplet上却显得如此“迟钝”。

2017年6月英伟达发表论文《MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability》提出了MCM设计，其基本可以看成是如今的Chiplet。

但英伟达一直未将这一设计付诸于实践中，反而在2021年12月发表了一篇名为《GPU Domain Specialization via Composable On-Package Architecture》的论文，其中所提出的COPA-GPU架构，实际只是单独分离了L2缓存，这也就是说，英伟达会在未来继续坚持Monolithic单一光刻设计。

英伟达坚持大芯片的原因其实很简单，die与die之间通讯带宽永远无法和monolithic内部的通讯带宽相比，Chiplet也许不适合高AI算力场合，更适合在CPU领域中大展拳脚，2022年英伟达发布的Grace CPU Superchip，就通过NVLink-C2C技术实现芯片高速互连，该芯片还遵循由业界共同制定的Chiplet互连规范UCIe。

在Chiplet上的谨慎，也让英伟达与3D封装没了缘分，虽然英伟达目前是台积电2.5D封装CoWoS的最大客户之一，但SoIC的客户里暂时还不包括它，也让它成了御三家里最晚拥抱这项先进技术的一家了。

伴随着Chiplet的高速发展，英伟达也可能在未来开始拥抱这一设计理念，今年的爆料人士Kopite7kimi称，英伟达面向高性能计算（HPC）和人工智能（AI）客户的下一代Blackwell GB100 GPU将全面采用Chiplet设计。

如今AMD在AI芯片上先行一步，利用Chiplet和3.5D封装打造了更大更强的MI300X，英特尔也已经全面拥抱Chiplet和3D封装，英伟达虽然依旧坐拥庞大的AI市场，但它的宝座却出现了一道微不可察的裂缝，红蓝绿这三家，谁能在芯片封装上掌握真正的话语权呢？

编辑/emily

來源：半導體行業觀察

作者：邵逸琦

據不完全統計，目前半導體行業已開發出約 1000 種封裝類型，按互連類型來劃分，其中包括了引線鍵合、倒裝芯片、晶圓級封裝 (WLP) 和硅通孔 (TSV)等，無數個die通過互聯器件相連接，構成了如今日漸繁盛的封裝市場。

其中的先進封裝，成爲了近兩年最受關注和歡迎的領域，先進製程進展越緩慢，它的重要性就愈發突出， $美國超微公司 (AMD.US)$、$英特爾 (INTC.US)$和$英偉達 (NVDA.US)$這傳統的“御三家”紛紛涉足，從2D封裝轉戰2.5D封裝，還向3D封裝這座高峰發起了挑戰。

2023年6月，AMD在舊金山正式推出了MI300X與MI300A兩款AI加速器，其中MI300X 採用了8 XCD，4個IO die，8個HBM3堆棧，高達256MB的AMD Infinity Cache和3.5D封裝的設計，支持 FP8 和稀疏性等新數學格式，是一款全部面向 AI 和 HPC 工作負載的設計，而它的晶體管也達到了1530 億顆，成爲了 AMD 迄今爲止製造的最大芯片。

AMD表示，MI300X 在人工智能推理工作負載中的性能比英偉達 H100高出1.6倍，在訓練工作中的性能與 H100相當，從而爲業界提供了亟需的高性能替代品，以取代英偉達的GPU。此外，這些加速器的 HBM3 內存容量也是英偉達 GPU 的兩倍多，達到驚人的 192 GB，使其 MI300X 平台能夠支持每個系統兩倍多的 LLM，並能運行比 H100 HGX 更大的模型。

最受矚目的當然還是AMD所宣稱的3.5D封裝，AMD表示，通過引入3D混合鍵合和2.5D的硅中介層，實現了全新的“3.5D封裝”技術。

AMD 高級副總裁兼企業研究員 Sam Naffziger 表示：“這是真正令人驚歎的硅堆棧，提供了業界目前已知的最高密度性能。這一集成採用了$台積電 (TSM.US)$的兩種技術，即 SoIC（集成芯片系統）和 CoWoS（晶片基板芯片）。前者（SoIC）使用混合鍵合技術將較小的芯片堆疊在較大的芯片之上，無需焊料就能直接連接每個芯片上的銅墊，其幫助高速緩衝存儲V-Cache 芯片堆疊在最高端的 CPU 芯片上，而後者（CoWos）將芯片堆疊在一塊更大的硅片上，這塊硅片被稱爲內插板（interposer），用於容納高密度互連。”

當英偉達還在H200中使用台積電CoWoS的2.5D封裝時，AMD卻率先一步，實現了台積電SoIC 3D封裝和CoWoS 2.5D封裝的結合，而它更早之前對Chiplet的佈局，似乎早已爲這次彎道超車做足了準備。

搭積木一樣造芯片

首先我們來回顧一下MI300X和MI300A的具體架構，根據AMD官方的解釋，MI300系列採用了台積電的 3D 混合鍵合 SoIC（集成電路上硅）技術，在四個底層 I/O 芯片之上對各種計算元件進行 3D 堆疊，無論是 CPU CCD（核心計算芯片）還是 GPU XCD。每個 I/O 芯片可以容納兩個 XCD 或三個 CCD。每個 CCD 與現有 EPYC 芯片中使用的 CCD 相同，每個 CCD 擁有八個超線程 Zen 4 核心。MI300A 使用了其中的三個 CCD 和六個 XCD，而 MI300X 使用了八個 XCD。

所謂 XCD，是AMD在GPU中負責計算的Chiplet，在MI 300X上，8個XCD包含了304 個CDNA 3 計算單元，那就意味着每個計算單元包含了34個CU。作爲對比，AMD MI 250X 擁有220個CU，這是一個較大的飛躍。

而HBM 堆棧則採用了 2.5D 封裝技術的標準中介層進行連接，每個 I/O 芯片都包含一個 32 通道 HBM3 內存控制器，用於託管 8 個 HBM 堆棧中的兩個，從而爲該設備提供了總共 128 個 16 位內存通道。MI300X 採用 12Hi HBM3 堆棧，容量爲 192GB，而 MI300A 使用 8Hi 堆棧，容量爲 128GB。

具體而言，AMD 的 CPU CCD 通過 3D 混合鍵合到底層 I/O 芯片，通過利用標準 2.5D 封裝的GMI3接口進行通信，AMD 爲此添加了一個新的焊盤通孔接口，可繞過 GMI3 鏈路，從而提供垂直堆疊芯片所需的 TSV。

5nm XCD GPU 芯片標誌着 AMD GPU 設計的全面芯片化，XCD 和 IOD 具有硬件輔助機制，可將作業分解爲更小的部分、分派它們並保持它們同步，從而減少主機系統開銷，這些單元還具有硬件輔助的緩存一致性。

爲了MI300系列封裝的這一小步，AMD準備了多年的時間，最早的起源可以追溯到1965年，當時AMD工程師以 "芯片組 "概念爲基礎，開發出一種將每個大芯片拆分成小塊的設計。

在和英特爾的CPU競爭中，推土機架構的失敗讓AMD的處境岌岌可危，它亟需一個低成本的解決方案來與英特爾更先進的架構競爭，Zen應運而生，新一代Ryzen處理器採用芯片組或 MCM（多芯片模塊）架構，標誌着整個 PC 和芯片製造行業的徹底轉變。

Zen初代架構相對簡單，採用了SoC 設計，從內核到 I/O 和控制器的所有內容都位於同一芯片上，同時引入了 CCX 概念，其中 CPU 核心被分爲四核單元，並使用無限高速緩存進行組合，由兩個四核 CCX 組成一塊芯片，不過消費級仍然是單芯片的設計。

而Zen+ 的情況基本上保持不變（採用了更先進節點），但 Zen 2 是一個重大升級，這是第一個基於Chiplet的消費類 CPU 設計，具有兩個計算芯片或CCD加一個 I/O 芯片。AMD 在 Ryzen 9 上添加了第二個 CCD，其核心數量在消費者領域前所未見。

Zen 3進一步完善了Chiplet設計，取消了CCX並將八個核心和32MB緩存合併到一個統一的CCD中，這大大減少了緩存延遲並簡化了內存子系統，AMD 銳龍處理器首次提供了比對手英特爾更好的遊戲性能。Zen 4 除了縮小 CCD 設計外，沒有對 CCD 設計做出顯着改變。

而EPYC系列中，第一代 AMD EPYC 處理器中基於四個複製的小芯片。每個處理器都有 8 個“Zen”CPU 內核、2 個 DDR4 內存通道和 32 個 PCIe 通道，以滿足性能目標，AMD 必須爲四個小芯片之間的 Infinity Fabric 互連提供一些額外的空間。

第二代EPYC的第一個Chiplet稱爲I/O die(IOD)，採用12nm工藝，包含8個DDR4內存通道，128個PCIe gen4 I/O通道以及其他I/O（如USB和SATA, SoC數據結構，和其他系統級功能）。第二個Chiplet則是複合核心die(CCD)，採用7nm工藝。在實際產品中，AMD將一個IOD與多達8個ccd組裝在一起，每個CCD提供8個Zen 2 CPU內核，因而可以一次提供64個內核。

第三代EPYC上，AMD提供多達64個核心和128個線程，採用AMD最新的Zen 3核心。該處理器設計有八個Chiplet，每個Chiplet有八個核心，這次Chiplet中的所有八個核心都是連接的，從而實現了有效的雙 L3 緩存設計，以實現較低的整體緩存延遲結構。

第四代EPYC中，AMD在原來的架構上採用多達 12 個 5 納米複雜核心芯片 (CCD) 的小芯片設計，其中I/O 芯片採用 6nm 工藝技術，而其周圍的 CCD 則採用 5nm 工藝。每個芯片具有 32MB 的 L3 緩存和 1 MB 的 L2 緩存。

這些CPU最終爲MI300系列的Chiplet鋪平了技術方面的道路。

2021年1月，AMD申請並通過了一項MCM GPU Chiplet 設計的專利，AMD在美國專利商標局公開了一項標題爲“使用高帶寬交聯的 GPU Chiplets”的專利，專利號爲“US 2020/0409859 A1”，在專利描述中，AMD概述了Chiplet設計中的圖形芯片未來的樣子，GPU Chiplet應直接與 CPU 通信，而其他小Chiplet通過無源、高帶寬交叉鏈路相互通信，並作爲片上系統 (SoC) 佈置在相應的中介層上。

2023年11月，AMD又公開了一項關於Chiplet 設計的專利，其描述了一種與現有芯片佈局截然不同的 GPU 設計，即在大型主 GPU 芯片周圍分佈大量內存緩存芯片（MCD），其描述了一種將幾何工作量分配到多個芯片上的系統，所有芯片並行工作。此外，沒有一個 "中央芯片 "會將工作分配給下屬芯片，因爲它們都將獨立運行。該專利表明，AMD 正在探索用芯片組來製造 GCD，而不僅僅是一塊巨大的硅片。

從消費領域到超算領域，再到AI領域， AMD利用Chiplet掀起了一場紅色風暴，而爲這場風暴不斷提供助力的，正是來自台積電的先進封裝技術。

AMD背後的人

在接受IEEE Spectrum採訪時，AMD產品技術架構師Sam Naffziger講到：“五六年前，我們開始研發 EPYC 和 Ryzen CPU 系列。當時，我們進行了廣泛的研究，以找到最適合連接芯片的封裝技術。這是一個涉及成本、性能、帶寬密度、功耗和製造能力的複雜方程式。想出好的封裝技術相對容易，但要真正做到大批量、低成本地生產，則完全是兩碼事。”

2011年，台積電首次開發了2.5D封裝 CoWoS，隨即就被賽靈思的高端 FPGA 採用，但由於其價格過於昂貴，在封裝市場上遲遲打不開局面，直到AI浪潮的席捲全球，英偉達、AMD、谷歌、英特爾紛紛拋來了橄欖枝，將CoWoS推上了最熱門先進封裝的寶座。

下面是台積電的 CoWoS（晶圓基板上芯片）封裝示意圖。CoWoS 允許在單個封裝上集成多個芯片或裸片。這樣就能將不同類型的芯片（如處理器、內存和圖形芯片）集成到單個封裝中，從而提高性能、降低功耗並縮小外形尺寸。多個芯片通過硅通孔（TSV）垂直堆疊，並用微凸塊互連。與傳統的2D封裝相比，這種堆疊方法可以縮短互連長度、降低功耗並提高信號完整性。

CoWoS在AMD的Chiplet上出力不少，通過將大型單片芯片劃分爲較小的芯片組，設計人員可以專注於優化每個芯片組的特定功能。，可實現更好的電源管理、更高的時鐘速度和更高的每瓦性能，同時還有助於將這些高性能芯片與內存等其他組件集成到一個封裝中，從而進一步提高系統性能。

CoWoS爲之後的3D封裝提供了寶貴經驗，2018年，台積電推出了SoIC 技術，其作爲一種創新的多晶片堆疊技術，主要是針對 10nm 以下的工藝技術進行晶圓級接合，與CoWoS技術相比，SoIC可提供更高的封裝密度、更小的鍵合間隔，還可以與CoWoS/InFo共用，實現多個Chiplet集成。

在IEDM 會議上，台積電副總裁介紹了該公司 SoIC 路線圖的更多細節。根據路線圖，台積電首先採用目前可用的 9μm 鍵合間距。然後，它計劃推出 6μm 間距，接着是 4.5μm 和 3μm。換而言之，台積電希望每兩年左右推出一種新的鍵距，每一代產品的縮放比例提高 70%。

他還用AMD的處理器作爲SoIC應用的例子，AMD 設計了基於 7nm 工藝的處理器和 SRAM，然後交由台積電生產，最後以 9μm 鍵合間距的SoIC技術來連接芯片。

這裏提到的，正是AMD在2021年推出的代號爲Milan-X的EPYC處理器里加入的3D V-Cache緩存，這也是世界上首款採用3D芯片堆疊的數據中心處理器。

AMD 表示，3D V-Cache 在當前第三代 EPYC CPU 每個計算芯片 32 MB 的 SRAM 基礎上又增加了 64 MB，使 Milan-X 每個計算芯片的三級緩存達到 96 MB，由於 Milan-X 處理器架構中最多有 8 個計算芯片，因此 CPU 中共享的 L3 緩存最多可達 768 MB，額外的 L3 緩存可以緩解內存帶寬壓力並減少延遲，從而顯着提高應用程序性能。

能實現這一步，台積電的 SoIC 技術功不可沒，其將 V-Cache 中的互連永久綁定到 CPU，縮小了芯片之間的距離，從而實現 2 TB/s 的通信帶寬，與第三代 EPYC CPU 使用的 2D 小芯片封裝相比，Milan-X CPU 中的互連的每比特能耗僅爲三分之一，互連密度提高了 200 倍，功效提高了三倍。

這一項技術後續也被下放到了Ryzen 7 5800X3D處理器之中，開始在消費市場中大展身手，包括最新的Ryzen 9 7950X3D，同樣用到了3D V-Cache的技術。

2023年，台積電在北美技術論壇上着重介紹了全新的3DFabric技術，其主要由先進封裝、3D芯片堆疊和設計等三部分組成。通過先進封裝，可以在單一封裝中置入更多處理器及存儲器，從而提升運算效能；在設計支持上，台積電推出開放式標準設計語言的最新版本，協助芯片設計人員處理複雜大型芯片。

2011年至2023年，台積電十餘年的封裝技術演進讓AMD的Chiplet夢想終於得以實現，而MI300系列也正是建立在最新的3DFabric基礎之上，將台積電SoIC 前端技術與 CoWoS後端技術相集成，堪稱量產先進封裝技術的集大成者。

藍色巨人的封裝版圖

對於英特爾來說，封裝同樣是它發展的重心之一，而且與AMD不同的是，英特爾選擇了自己搞封裝，力圖掌握芯片研發生產應用的全流程。

英特爾對標台積電CoWoS的2.5D封裝技術被稱爲EMIB， 2017年正式應用於產品，英特爾的數據中心處理器Sapphire Rapid就是採用的這項技術；第一代的3D IC封裝則稱爲Foveros，2019年時已用於英特爾計算機處理器Lakefield。

EMIB最大特色就是通過硅橋（Sillicon Bridge），從下方來連接存儲器（HBM）和運算等各種芯片（die）。也因爲硅橋會埋在基板（substrate）中並連接芯片，讓存儲器和運算芯片能直接相連，加快芯片本身的能效。

Foveros則是3D堆棧，將存儲器、運算和架構等不同功能的芯片組堆棧起來後，運用銅線穿透每一層，達到連接的效果，最後，工廠會將已經堆棧好的芯片送到封裝廠座組裝，將銅線與電路板上的電路做接合。

2022年，英特爾首次將下2.5D和3D封裝技術融合在一起，命名爲Co-EMIB，這是一個將EMIB和Foveros技術相結合的創新應用，能夠讓兩個或多個Foveros元件互連，並且基本達到單芯片的性能水準，藉由這一項技術，推出了當時晶體管規模最大的SoC——Ponte Vecchio，主要面向高性計算市場。

每顆 Ponte Vecchio 處理器實際上都是使用英特爾Co-EMIB 連接在一起的兩個Chiplet的鏡像集，Co-EMIB 在兩個 3D Chiplet堆棧之間形成高密度互連的橋樑，橋本身是嵌入封裝有機基板中的一小塊硅。硅上的互連線可以比有機基板上的互連線更窄。Ponte Vecchio 與封裝基板的普通連接間隔爲 100 微米，而 Co-EMIB 芯片中的連接密度幾乎是其兩倍，Co-EMIB 芯片還將高帶寬存儲器 (HBM) 和 Xe Link I/O Chiplet連接到“基礎硅”（最大的Chiplet），其他芯片則堆疊在該“基礎硅”上。

基礎芯片還使用了英特爾的 3D 堆疊技術，稱爲 Foveros，該技術在兩個芯片之間建立了密集的芯片到芯片垂直連接陣列。這些連接僅相距 36 微米，並通過“面對面”連接芯片來實現；也就是說，一個芯片的頂部粘合到另一個芯片的頂部。信號和電源通過TSV硅通孔進入該堆棧，硅通孔是相當寬的垂直互連，直接穿過大部分硅。Ponte Vecchio 上使用的 Foveros 技術是對用於製造英特爾Lakefield 移動處理器的技術的改進，信號連接密度增加了一倍。

做到這一點並不容易，英特爾院士Wilfred Gomes表示，這需要在產量管理、時鐘電路、熱調節和功率傳輸方面進行創新。例如，英特爾工程師選擇爲處理器提供高於正常水平的電壓（1.8 伏），以便降低電流，簡化封裝，基片中的電路將電壓降低到接近 0.7 伏，以便在計算芯片上使用，而且每個計算芯片都必須在基片中擁有自己的電源域。

對於英特爾來說，Ponte Vecchio將它目前已有的先進封裝技術推到了巔峯，與AMD的MI300系列相比，也未遜色多少，可謂是如今先進封裝的紅藍雙星。

實際上，英特爾雖然在先進製程上略落後於台積電，但在先進封裝卻與台積電不相上下。英特爾表示，自己靈活的代工服務，允許客戶混合搭配其晶圓製造和封裝產品，作爲老牌廠商的它，晶圓封裝廠分散在世界各地，可以利用地理優勢來擴大產能和服務。

英特爾CEO Pat Gelsinge在接受採訪時也表示，英特爾擁有下一代內存架構的先進能力，以及3D 堆疊的優勢，既能用於Chiplet，也能用於人工智能和高性能服務器的超大封裝，未來我們將把這些技術應用到產品中，同時也將展示給代工廠（IFS）的客戶、

爲什麼是Chiplet？

在看完AMD、英特爾以及台積電的技術歷程後，相信許多人都會有一個疑問，爲什麼他們如此執着於3D封裝和Chiplet呢？

原因源自半導體行業內部的需求，摩爾定律的出現，讓不斷提高的設備集成度能夠繼續適應相同的物理尺寸，光刻縮小可以使構建塊縮小 30%，那麼就可以在不增加芯片尺寸的情況下增加 42% 的電路。

但並非所有半導體器件都能享受這一紅利，例如可以包含模擬電路的 I/O，其擴展速度約爲邏輯的一半，這就讓人不得不尋找新的出路。而且光刻縮小的成本也不便宜，採用 7nm 工藝加工的晶圓成本高於採用 14nm 工藝加工的晶圓成本，5nm 工藝的成本高於 7nm 工藝，依此類推……隨着晶圓價格的上漲，Chiplet往往比單片更加經濟實惠。

此外，由於新芯片設計需要設計和工程資源，並且由於新節點的複雜性不斷增加，每個新工藝節點的新設計的典型成本也隨之增加，這一的情況進一步激勵人們創建可重複使用的設計。

Chiplet設計理念使這成爲可能，因爲只需改變芯片的數量和組合即可實現新的產品配置，通過將單個小芯片集成到 1、2、3 和 4 芯片配置中，可以從單個流片創建 4 種不同的處理器品種，而如果想把它們整合進一塊芯片中，就需要 4 次單獨的流片。

AMD 在其關於新款 Radeon RX 7900 系列 "Navi 31 "圖形處理器的技術演示中，詳細解釋了爲什麼必須爲高端圖形處理器採用芯片組路線。

事實上，AMD 近十年裏的 Radeon GPU 與CPU相比，不管是利潤還是收入都不容樂觀，在面臨英偉達競爭的情況下，降低製造成本的必要性愈發突出，隨着 GeForce "Ada Lovelace "一代的推出，英偉達繼續押注在單片硅 GPU 上，即使是最大的 "AD102 "芯片也還是單片 GPU，這爲 AMD 提供了一個降低 GPU 製造成本的機會。

Chiplet讓AMD其能夠和英偉達展開價格戰，拿下更多的市場份額。最典型的例子是，AMD 對 Radeon RX 7900 XTX 和 RX 7900 XT 分別採用了相對激進的999美元和899美元定價，根據AMD 的官網數據，這兩款產品有能力與英偉達 1199 美元的 RTX 4080 一決高下，在某些情況下，甚至有可能與 1599 美元的 RTX 4090 展開較量。

事實上，這就是Chiplet的最顯著的優點之一，通過使用Chiplet，AMD可以快速提高良率並簡化設計/驗證，同時可以爲每個小芯片選擇最佳工藝。邏輯部分可以採用尖端工藝製造，大容量SRAM可以使用7nm左右的工藝製造，而I/O和外圍電路可以使用12nm或28nm左右的工藝製造，從而減少了設計和製造成本。

此外，Chiplet也能幫助它輕鬆製造衍生類型，例如相同邏輯但不同外圍電路，或相同外圍電路但不同邏輯，而且可以混合使用來自不同製造商的小芯片，而不是侷限在單個製造商上。

AMD如此，英特爾也不外乎是，AMD仰賴台積電已有的技術，全力研究芯片架構設計，英特爾就要稍微吃力一點，一方面研究先進製程和封裝，另外一方面也要着手芯片與Chiplet的迭代改進，兩家甚至還在封裝上打起了擂臺賽。

如今去評判比賽的勝負已經不重要了，因爲3D封裝與Chiplet逐漸從數據中心和AI加速器走向消費市場的PC處理器，最終惠及筆記本與手機，成爲了大家認定的新趨勢，

寫在最後

與AMD和英特爾相比，英偉達在3D封裝以及Chiplet上卻顯得如此“遲鈍”。

2017年6月英偉達發表論文《MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability》提出了MCM設計，其基本可以看成是如今的Chiplet。

但英偉達一直未將這一設計付諸於實踐中，反而在2021年12月發表了一篇名爲《GPU Domain Specialization via Composable On-Package Architecture》的論文，其中所提出的COPA-GPU架構，實際只是單獨分離了L2緩存，這也就是說，英偉達會在未來繼續堅持Monolithic單一光刻設計。

英偉達堅持大芯片的原因其實很簡單，die與die之間通訊帶寬永遠無法和monolithic內部的通訊帶寬相比，Chiplet也許不適合高AI算力場合，更適合在CPU領域中大展拳腳，2022年英偉達發佈的Grace CPU Superchip，就通過NVLink-C2C技術實現芯片高速互連，該芯片還遵循由業界共同制定的Chiplet互連規範UCIe。

在Chiplet上的謹慎，也讓英偉達與3D封裝沒了緣分，雖然英偉達目前是台積電2.5D封裝CoWoS的最大客戶之一，但SoIC的客戶裏暫時還不包括它，也讓它成了御三家裏最晚擁抱這項先進技術的一家了。

伴隨着Chiplet的高速發展，英偉達也可能在未來開始擁抱這一設計理念，今年的爆料人士Kopite7kimi稱，英偉達面向高性能計算（HPC）和人工智能（AI）客戶的下一代Blackwell GB100 GPU將全面採用Chiplet設計。

如今AMD在AI芯片上先行一步，利用Chiplet和3.5D封裝打造了更大更強的MI300X，英特爾也已經全面擁抱Chiplet和3D封裝，英偉達雖然依舊坐擁龐大的AI市場，但它的寶座卻出現了一道微不可察的裂縫，紅藍綠這三家，誰能在芯片封裝上掌握真正的話語權呢？

編輯/emily

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

英伟达，被弯道超车？