小芯片堆疊，英特爾和AMD的不同做法

半導體行業觀察 · 10/25 09:23

如果您希望可以时常见面，欢迎标星收藏哦~

来源：内容编译自theregister，谢谢。

2017 年，AMD 推出代号为 Naples 的第一代 Epyc 处理器后不久，英特尔就打趣说，其竞争对手为了保持相关性，已经沦落到只能将一堆台式机芯片粘在一起的地步。

不幸的是，对于英特尔来说，这句评论已经过时了，短短几年后，这家 x86 巨头就开始自己寻找粘合剂了。

英特尔的Xeon 6处理器于今年开始分阶段推出，这是其第三代多芯片 Xeon 处理器，也是其首款采用与AMD自己的异构芯片架构类似的数据中心芯片。

虽然英特尔最终认识到了AMD小芯片战略的明智之处，但其方法却截然不同。

突破标线限制

快速回顾一下为什么这么多 CPU 设计正在远离单片架构，这主要归结为两个因素：掩模版限制和产量。

一般而言，在工艺技术没有重大改进的情况下，更多内核必然意味着更多硅片。然而，芯片实际尺寸存在实际限制 - 我们称之为光罩极限 - 大约为 800 平方毫米。一旦达到极限，继续扩展计算的唯一方法就是使用更多芯片。

我们现在看到许多产品（不仅仅是 CPU）都采用了这种技术，它们将两个大型芯片塞进一个封装中。Gaudi 3、Nvidia的Blackwell和英特尔的Emerald Rapids Xeons 只是其中几个例子。

多芯片的问题在于，它们之间的桥梁往往是带宽方面的瓶颈，并且有可能引入额外的延迟。这通常不像将工作负载分散到多个插槽那么糟糕，但这也是一些芯片设计师倾向于使用较少数量的较大芯片来扩展计算的原因之一。

然而，制造更大的芯片确实成本高昂，因为芯片越大，缺陷率就越高。这使得使用大量较小的芯片成为一个有吸引力的提议，并解释了为什么AMD的设计使用了如此多的芯片——最新的Epycs芯片多达 17 个。

了解了这些基础知识后，让我们深入探讨一下英特尔和AMD最新Xeons和Epyc处理器的不同设计理念。

AMD的做法

我们将从AMD的第五代Epyc Turin处理器开始。具体来说，我们正在研究该芯片的 128 核 Zen 5 版本，它具有 16 个4nm核心复合芯片 (CCD)，这些芯片围绕着基于台积电 6nm 工艺技术制造的单个 I/O 芯片 (IOD)。

AMD 最新的Epycs配备多达 16 个计算芯片

如果这听起来很熟悉，那是因为 AMD 在其第二代 Epyc 处理器上使用了相同的基本公式。作为参考，第一代Epyc缺乏独特的 I/O 芯片。

正如我们前面提到的，使用大量较小的计算芯片意味着 AMD 可以获得更高的产量，但这也意味着他们可以在 Ryzen 和 Epyc 处理器之间共享硅片。

如果这些芯片看起来很熟悉，那是因为 AMD 的 Epyc 和 Ryzen 处理器实际上共享相同的计算芯片。

此外，使用八核或十六核 CCD（每个 CCD 具有 32 MB 的 L3 缓存），AMD 在按缓存和内存比例扩展核心数量时可以获得额外的灵活性。

例如，如果您想要一个具有 16 个内核的 Epyc（由于许可限制，这是 HPC 工作负载的常见 SKU），最明显的实现方法是使用两个八核 CCD，两个 CCD 之间有 64 MB 的 L3 缓存。但是，您也可以使用 16 个 CCD，每个 CCD 只有一个内核处于活动状态，但板载缓存为 512 MB。这听起来可能很疯狂，但这两种芯片确实存在。

AMD 的第五代Epycs遵循熟悉的模式，即16个计算芯片围绕一个中央 I/O 芯片。

另一方面，I/O 芯片负责除计算之外的几乎所有功能，包括内存、安全性、PCIe、CXL 和其他 I/O（如 SATA），并且还充当芯片 CCD 与其他插槽之间通信的骨干。

以下是对 AMD Epyc Turin I/O 芯片的详细介绍。

将内存控制器放置在I/O芯片上确实有一些优点和缺点。从好的方面来说，这意味着内存带宽在很大程度上独立于核心数量而扩展。缺点是某些工作负载的内存和缓存访问延迟可能会更高。我们强调“可能”，因为这种事情高度依赖于工作负载。

英特尔Xeon的chiplet 之旅

谈到英特尔，这家芯片制造商对多芯片硅片的处理方式与 AMD 有很大不同。虽然现代 Xeon 处理器采用具有不同计算和 I/O 芯片的异构架构，但情况并非总是如此。

英特尔首款多芯片 Xeon 处理器，代号为Sapphire Rapids，采用一块单片、中等核心数芯片或四块极端核心数芯片，每块芯片都有自己的内存控制器和板载 I/O。Emerald Rapids采用了类似的模式，但为芯片核心数较高的 SKU 选择了两块更大的芯片。

正如您在 Sapphire 和 Emerald Rapids 之间看到的，英特尔从四个中型芯片转换为一对近乎网状的有限芯片。

所有这一切都随着 Xeon 6 的推出而发生了改变，英特尔将I /O、UPI 链接和加速器移至基于英特尔 7 工艺节点制造的一对芯片上，这对芯片位于基于英特尔 3 制造的中心的一到三个计算芯片之间。

出于稍后会讲到的原因，我们将主要关注英特尔更主流的 Granite Rapids Xeon 6 处理器，而不是其多核 Sierra Forest 部件。

看看英特尔的计算芯片，我们就能发现它与 AMD 的第一个重大区别。每个计算模块至少有 43 个板载核心，可根据 SKU 开启或关闭融合。这意味着英特尔实现 128 个核心所需的芯片数量比 AMD 少得多，但由于面积较大，因此成品率可能会更低。

根据 SKU，Granite Rapids 使用夹在一对 I/O 芯片之间的一到三个计算芯片。

除了增加内核之外，英特尔还选择将这些芯片的内存控制器放在计算芯片上，每个芯片支持 4 个通道。理论上，这应该可以降低访问延迟，但这也意味着，如果你想要所有 12 个内存通道，就需要填充所有 3 个芯片。

对于我们上个月看过的 6900P 系列部件，你不必担心这一点，因为每个 SKU 都配有三个计算芯片。然而，这意味着 72 核版本只利用了封装中一小部分硅片。同样，我们之前讨论过的 16 核 HPC 中心 Epyc 也是如此。

另一方面，英特尔将于明年初推出的 6700P 系列部件将配备一个或两个计算芯片，具体取决于所需的内存带宽和核心数量，这意味着内存通道在高端将限制为 8 个，在板载单个计算芯片的配置中可能只有 4 个。我们目前还不清楚 HCC 和 LCC 芯片上的内存配置，因此英特尔有可能增强了这些部件上的内存控制器。

与 AMD 的 Epyc 一样，英特尔的 Xeon 现在采用带有计算和 I/O 芯片的异构芯片架构。

英特尔的 I/O 芯片也相当薄，并包含 PCIe、CXL 和 UPI 链路组合，用于与存储、外围设备和其他插槽进行通信。除此之外，我们还发现了许多用于直接流 (DSA)、内存分析 (IAA)、加密/解密 (QAT) 和负载平衡的加速器。

我们得知，在 I/O 芯片上放置加速器的部分原因是为了让它们更靠近进出芯片的数据。

我们接下来要去哪里？

从表面上看，英特尔的下一代多核处理器代号为 Clearwater Forest，预计将于明年上半年推出，其型号与 Granite Rapids 类似，具有两个 I/O 模块和三个计算模块。

它可能看起来像缩小版的 Granite Rapids，但显然那只是隐藏着更多芯片的结构硅。

然而，外表是会骗人的。据我们了解，这三个计算芯片实际上只是隐藏着许多较小计算芯片的结构硅片，而这些较小的计算芯片本身位于有源硅片中介层之上。

根据英特尔今年早些时候展示的效果图，Clearwater Forest 每个封装最多可使用 12 个计算芯片。使用硅中介层绝不是新鲜事，它提供了许多好处，包括芯片间带宽更高、延迟比有机基板中通常看到的更低。这与英特尔核心数最高的 Sierra Forest 部件上的一对 144 核计算芯片大不相同。

如果英特尔今年早些时候发布的渲染图有任何可参考之处，那么 Clearwater Forest 隐藏的芯片数量要比 Granite Rapids 多得多

当然，讨论 Clearwater 森林将使用的技术的效果图并不意味着明年到达时我们将会得到完全相同的技术。

也许更大的问题是 AMD 下一步将把其小芯片架构带向何方。看看 AMD 的 128 核 Turin 处理器，封装上没有太多空间容纳更多硅片，但 House of Zen 仍有一些选择。

首先，AMD 可以选择更大的封装，为额外的芯片腾出空间。或者，该芯片制造商也可以将更多内核封装到更小的芯片上。然而，我们怀疑 AMD 的第六代 Epycs 最终可能看起来更像其 Instinct MI300 系列加速器。

MI300A 将 24 个 Zen 4 核心、6 个 CDNA 3 GPU 芯片和 128GB HBM3 内存整合到一个封装中，旨在满足 HPC 工作负载的需求

您可能还记得，与 MI300X GPU 一起推出的还有一款 APU，它将芯片的两个 CDNA3 模块换成了三个 CCD，中间有 24 个 Zen 4 核心。这些计算模块堆叠在四个 I/O 芯片上，并连接到一组八个 HBM3 模块。

现在，这只是猜测，但不难想象 AMD 会做类似的事情，将所有内存和 GPU 芯片换成额外的 CCD。这样的设计可能也会受益于更高的带宽和更低的芯片间通信延迟。

这是否真的会实现，只有时间才能证明。我们预计AMD的第6 代Epycs 将于 2026 年底上市。

如果您希望可以時常見面，歡迎標星收藏哦~

來源：內容編譯自theregister，謝謝。

2017 年，AMD 推出代號爲 Naples 的第一代 Epyc 處理器後不久，英特爾就打趣說，其競爭對手爲了保持相關性，已經淪落到只能將一堆臺式機芯片粘在一起的地步。

不幸的是，對於英特爾來說，這句評論已經過時了，短短几年後，這家 x86 巨頭就開始自己尋找粘合劑了。

英特爾的Xeon 6處理器於今年開始分階段推出，這是其第三代多芯片 Xeon 處理器，也是其首款採用與AMD自己的異構芯片架構類似的數據中心芯片。

雖然英特爾最終認識到了AMD小芯片戰略的明智之處，但其方法卻截然不同。

突破標線限制

快速回顧一下爲什麼這麼多 CPU 設計正在遠離單片架構，這主要歸結爲兩個因素：掩模版限制和產量。

一般而言，在工藝技術沒有重大改進的情況下，更多內核必然意味着更多硅片。然而，芯片實際尺寸存在實際限制 - 我們稱之爲光罩極限 - 大約爲 800 平方毫米。一旦達到極限，繼續擴展計算的唯一方法就是使用更多芯片。

我們現在看到許多產品（不僅僅是 CPU）都採用了這種技術，它們將兩個大型芯片塞進一個封裝中。Gaudi 3、Nvidia的Blackwell和英特爾的Emerald Rapids Xeons 只是其中幾個例子。

多芯片的問題在於，它們之間的橋樑往往是帶寬方面的瓶頸，並且有可能引入額外的延遲。這通常不像將工作負載分散到多個插槽那麼糟糕，但這也是一些芯片設計師傾向於使用較少數量的較大芯片來擴展計算的原因之一。

然而，製造更大的芯片確實成本高昂，因爲芯片越大，缺陷率就越高。這使得使用大量較小的芯片成爲一個有吸引力的提議，並解釋了爲什麼AMD的設計使用瞭如此多的芯片——最新的Epycs芯片多達 17 個。

了解了這些基礎知識後，讓我們深入探討一下英特爾和AMD最新Xeons和Epyc處理器的不同設計理念。

AMD的做法

我們將從AMD的第五代Epyc Turin處理器開始。具體來說，我們正在研究該芯片的 128 核 Zen 5 版本，它具有 16 個4nm核心複合芯片 (CCD)，這些芯片圍繞着基於台積電 6nm 工藝技術製造的單個 I/O 芯片 (IOD)。

AMD 最新的Epycs配備多達 16 個計算芯片

如果這聽起來很熟悉，那是因爲 AMD 在其第二代 Epyc 處理器上使用了相同的基本公式。作爲參考，第一代Epyc缺乏獨特的 I/O 芯片。

正如我們前面提到的，使用大量較小的計算芯片意味着 AMD 可以獲得更高的產量，但這也意味着他們可以在 Ryzen 和 Epyc 處理器之間共享硅片。

如果這些芯片看起來很熟悉，那是因爲 AMD 的 Epyc 和 Ryzen 處理器實際上共享相同的計算芯片。

此外，使用八核或十六核 CCD（每個 CCD 具有 32 MB 的 L3 緩存），AMD 在按緩存和內存比例擴展核心數量時可以獲得額外的靈活性。

例如，如果您想要一個具有 16 個內核的 Epyc（由於許可限制，這是 HPC 工作負載的常見 SKU），最明顯的實現方法是使用兩個八核 CCD，兩個 CCD 之間有 64 MB 的 L3 緩存。但是，您也可以使用 16 個 CCD，每個 CCD 只有一個內核處於活動狀態，但板載緩存爲 512 MB。這聽起來可能很瘋狂，但這兩種芯片確實存在。

AMD 的第五代Epycs遵循熟悉的模式，即16個計算芯片圍繞一箇中央 I/O 芯片。

另一方面，I/O 芯片負責除計算之外的幾乎所有功能，包括內存、安全性、PCIe、CXL 和其他 I/O（如 SATA），並且還充當芯片 CCD 與其他插槽之間通信的骨幹。

以下是對 AMD Epyc Turin I/O 芯片的詳細介紹。

將內存控制器放置在I/O芯片上確實有一些優點和缺點。從好的方面來說，這意味着內存帶寬在很大程度上獨立於核心數量而擴展。缺點是某些工作負載的內存和緩存訪問延遲可能會更高。我們強調「可能」，因爲這種事情高度依賴於工作負載。

英特爾Xeon的chiplet 之旅

談到英特爾，這家芯片製造商對多芯片硅片的處理方式與 AMD 有很大不同。雖然現代 Xeon 處理器採用具有不同計算和 I/O 芯片的異構架構，但情況並非總是如此。

英特爾首款多芯片 Xeon 處理器，代號爲Sapphire Rapids，採用一塊單片、中等核心數芯片或四塊極端核心數芯片，每塊芯片都有自己的內存控制器和板載 I/O。Emerald Rapids採用了類似的模式，但爲芯片核心數較高的 SKU 選擇了兩塊更大的芯片。

正如您在 Sapphire 和 Emerald Rapids 之間看到的，英特爾從四個中型芯片轉換爲一對近乎網狀的有限芯片。

所有這一切都隨着 Xeon 6 的推出而發生了改變，英特爾將I /O、UPI 鏈接和加速器移至基於英特爾 7 工藝節點製造的一對芯片上，這對芯片位於基於英特爾 3 製造的中心的一到三個計算芯片之間。

出於稍後會講到的原因，我們將主要關注英特爾更主流的 Granite Rapids Xeon 6 處理器，而不是其多核 Sierra Forest 部件。

看看英特爾的計算芯片，我們就能發現它與 AMD 的第一個重大區別。每個計算模塊至少有 43 個板載核心，可根據 SKU 開啓或關閉融合。這意味着英特爾實現 128 個核心所需的芯片數量比 AMD 少得多，但由於面積較大，因此成品率可能會更低。

根據 SKU，Granite Rapids 使用夾在一對 I/O 芯片之間的一到三個計算芯片。

除了增加內核之外，英特爾還選擇將這些芯片的內存控制器放在計算芯片上，每個芯片支持 4 個通道。理論上，這應該可以降低訪問延遲，但這也意味着，如果你想要所有 12 個內存通道，就需要填充所有 3 個芯片。

對於我們上個月看過的 6900P 系列部件，你不必擔心這一點，因爲每個 SKU 都配有三個計算芯片。然而，這意味着 72 核版本只利用了封裝中一小部分硅片。同樣，我們之前討論過的 16 核 HPC 中心 Epyc 也是如此。

另一方面，英特爾將於明年初推出的 6700P 系列部件將配備一個或兩個計算芯片，具體取決於所需的內存帶寬和核心數量，這意味着內存通道在高端將限制爲 8 個，在板載單個計算芯片的配置中可能只有 4 個。我們目前還不清楚 HCC 和 LCC 芯片上的內存配置，因此英特爾有可能增強了這些部件上的內存控制器。

與 AMD 的 Epyc 一樣，英特爾的 Xeon 現在採用帶有計算和 I/O 芯片的異構芯片架構。

英特爾的 I/O 芯片也相當薄，幷包含 PCIe、CXL 和 UPI 鏈路組合，用於與存儲、外圍設備和其他插槽進行通信。除此之外，我們還發現了許多用於直接流 (DSA)、內存分析 (IAA)、加密/解密 (QAT) 和負載平衡的加速器。

我們得知，在 I/O 芯片上放置加速器的部分原因是爲了讓它們更靠近進出芯片的數據。

我們接下來要去哪裏？

從表面上看，英特爾的下一代多核處理器代號爲 Clearwater Forest，預計將於明年上半年推出，其型號與 Granite Rapids 類似，具有兩個 I/O 模塊和三個計算模塊。

它可能看起來像縮小版的 Granite Rapids，但顯然那只是隱藏着更多芯片的結構硅。

然而，外表是會騙人的。據我們了解，這三個計算芯片實際上只是隱藏着許多較小計算芯片的結構硅片，而這些較小的計算芯片本身位於有源硅片中介層之上。

根據英特爾今年早些時候展示的效果圖，Clearwater Forest 每個封裝最多可使用 12 個計算芯片。使用硅中介層絕不是新鮮事，它提供了許多好處，包括芯片間帶寬更高、延遲比有機基板中通常看到的更低。這與英特爾核心數最高的 Sierra Forest 部件上的一對 144 覈計算芯片大不相同。

如果英特爾今年早些時候發佈的渲染圖有任何可參考之處，那麼 Clearwater Forest 隱藏的芯片數量要比 Granite Rapids 多得多

當然，討論 Clearwater 森林將使用的技術的效果圖並不意味着明年到達時我們將會得到完全相同的技術。

也許更大的問題是 AMD 下一步將把其小芯片架構帶向何方。看看 AMD 的 128 核 Turin 處理器，封裝上沒有太多空間容納更多硅片，但 House of Zen 仍有一些選擇。

首先，AMD 可以選擇更大的封裝，爲額外的芯片騰出空間。或者，該芯片製造商也可以將更多內核封裝到更小的芯片上。然而，我們懷疑 AMD 的第六代 Epycs 最終可能看起來更像其 Instinct MI300 系列加速器。

MI300A 將 24 個 Zen 4 核心、6 個 CDNA 3 GPU 芯片和 128GB HBM3 內存整合到一個封裝中，旨在滿足 HPC 工作負載的需求

您可能還記得，與 MI300X GPU 一起推出的還有一款 APU，它將芯片的兩個 CDNA3 模塊換成了三個 CCD，中間有 24 個 Zen 4 核心。這些計算模塊堆疊在四個 I/O 芯片上，並連接到一組八個 HBM3 模塊。

現在，這只是猜測，但不難想象 AMD 會做類似的事情，將所有內存和 GPU 芯片換成額外的 CCD。這樣的設計可能也會受益於更高的帶寬和更低的芯片間通信延遲。

這是否真的會實現，只有時間才能證明。我們預計AMD的第6 代Epycs 將於 2026 年底上市。

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

小芯片堆叠，英特尔和AMD的不同做法

小芯片堆疊，英特爾和AMD的不同做法

風險及免責聲明

聲明