share_log

进一步揭开AMD ZEN 5的神秘面纱

半導體行業觀察 ·  Jul 26 10:03

如果您希望可以时常见面,欢迎标星 收藏哦~

来源:内容由半导体行业观察(ID:icbank)综合自tomshardware,谢谢。

AMD 最近向全世界公布了即将发布的Ryzen 9000“Granite Ridge”和 Ryzen AI 300“Strix Point”处理器的细节。信息量很大,但该公司本周又对其 Zen 5 微架构和 SoC 布局进行了更深入的介绍。AMD透露,其 Zen 5c“紧凑型”内核比标准全功能 Zen 5 内核小约 25%,并且这两种内核类型在同一芯片上具有不同数量的缓存——这是 AMD 设计的第一次。该公司还宣布了许多其他有趣的技术细节,我们将在下面介绍。

AMD ZEN 5架构的特点

AMD 开发了 Zen 5 架构,然后对其进行了定制,以实现更紧凑的 Zen 5c 核心实现。这种单一架构部署在两种可定制的核心类型中,将用于其桌面、移动和服务器处理器,并涵盖 4nm 和 3nm 工艺节点。

与之前的 Zen 4 架构相比,这些处理器的平均每周期指令 (IPC) 性能提升了 16%。这一增强意味着 Zen 5 芯片在相同的时钟速度和核心数量下效率提高了 16%,具体取决于特定的工作负载。与之前的 Zen 迭代之间经常看到的增量更新不同,AMD 将 Zen 5 描述为 Zen 4 的实质性飞跃。

为了实现这一进步,AMD 实施了多项架构改进。其中,AMD 优化了分支预测的准确性并降低了其延迟,以提高处理器在确认分支指令之前预测其方向的效率。AMD 还通过扩展管道和矢量大小来增强吞吐能力,这有助于同时处理更多数据并提高核心的并行处理能力。此外,据报道,Zen 5 处理器具有更大的窗口大小,允许管道中容纳更多指令,从而提高了整体计算吞吐量。

在数据处理方面,AMD 告诉我们,Zen 5 架构将前端指令的带宽增加了一倍。这一增强还体现在 L1 和 L2 缓存之间以及从 L1 缓存到浮点 (FP) 单元的数据传输速率增加,这将显著提高处理器处理复杂计算和数据密集型任务的效率。

AMD 在 Zen 5 架构中的最新分支预测器旨在减少延迟并提高准确性,从而提高整体吞吐量。较低的延迟使 CPU 能够更快地访问和处理分支预测数据。增强的准确性减少了误预测,从而节省了 CPU 资源。鉴于 Zen 5 的更宽核心设计,增加的分支预测器吞吐量对于保持最佳性能至关重要。额外的解码管道通过确保高效的数据流进一步支持了这一目标。Zen 5 引入了 8 宽调度,与以前的 Zen 架构的 6 宽调度相比,这是一个值得注意的改进。这种扩展允许 Zen 5 CPU 核心同时处理更多操作,前提是它们接收到足够的数据。

SoC 和 Zen 5c 的芯片面积减少了约 25%

AMD对其“紧凑型”Zen 5c 核心的方法本质上不同于英特尔对其 e 核心的方法。与英特尔的 E 核心一样,AMD 的 Zen 5c 核心旨在比“标准”性能核心占用更少的处理器芯片空间,同时为不太苛刻的任务提供足够的性能,从而节省电力并提供比以前更多的每平方毫米计算马力(深入了解此处)。但相似之处到此为止。与英特尔不同,AMD 采用相同的微架构,并通过其较小的核心支持相同的功能。

AMD 的全尺寸 Zen 5 和紧凑型 Zen 5c 内核可用于多个部分,既可以采用同一芯片上两种内核类型的异构设计(如 Strix Point),也可以采用仅使用一种内核类型的同质设计(如仅具有全尺寸内核的 Granite Ridge 台式机芯片,或仅具有较小的紧凑型内核的上一代EPYC Bergamo服务器芯片)。

Ryzen 9000 Granite Ridge 处理器完全符合预期 - 单个 CCD(核心小芯片芯片)包含八个完整的 Zen 5 核心,并配有 32MB 的 L3 缓存。CPU 将配备一个或两个 CCD,并配有一个 IOD(输入输出芯片),用于处理现代 SoC 中的许多其他功能。

Strix Point SOC 完全独一无二。紧凑型核心专为横向扩展性能而设计,同时提供更优化的功率性能比。部分差异源于 AMD 对这种核心类型使用不同的缓存容量。

该芯片有两个 CCX(核心复合体 - 同一芯片上的核心集群),就像我们在旧款 AMD Zen 2 芯片中看到的一样。两种核心类型都有自己的私有 L1 和 L2 缓存,但 24MB 的 L3 缓存分为标准核心的 16MB 部分和 Zen 5c 紧凑核心的 8MB 部分。AMD

的 Zen 5c 核心标志着它首次在同一芯片上拥有两种具有不同缓存容量的核心类型 - 四个全尺寸性能核心每个都有 4MB 的 L3,以满足低延迟和突发工作负载。相比之下,八个紧凑型核心每个只有 1MB 的 L3,用于低利用率高驻留工作负载。

减少的 L3 缓存容量不仅为紧凑型内核节省了空间,还大大降低了功耗——该芯片每个紧凑型内核使用的耗电缓存要少得多。鉴于 AMD 希望尽可能多地在紧凑型内核上运行整个机器,同时对性能内核及其大型 L3 缓存进行电源门控,这具有极大的延长电池寿命的潜力——前提是调度机制按预期工作。

转向非对称缓存设计给 AMD 带来了新的调度和管理问题。这两个 L3 缓存必须通过数据结构相互通信,就像 AMD 较旧的 Zen 2 架构中的 CCX-to-CCX 缓存一致性机制一样。这会导致缓存到缓存传输的延迟更高,AMD 表示“不会超过您必须转到内存的时间”。

因此,AMD 使用 Windows 调度程序机制尝试将工作负载限制在 Zen 5 或 5c 内核上,以减少高延迟传输的发生,而后台工作负载通常分配给 5c 内核。

与英特尔不同,英特尔会优先将工作调度到 E 核中,如果较小的核心速度不够快,则再将其发送到其他核心,而 AMD 则不会优先考虑工作负载首先落在何处。相反,AMD 允许操作系统根据优先级和 QoS 机制选择目标核心类型,从而确保根据给定的工作负载获得最佳的用户体验。AMD 拥有自己的线程调度机制,并为操作系统提供表格,其中列举了每个核心的性能和功率特征,并为各种操作提供了权重,从而允许操作系统做出调度决策。

我们还可以在幻灯片中看到 EPYC SoC 的细分,AMD 对其下一代 Zen 5 EPYC CPU 含糊其辞,只是列出了每个 CCD 的“N-Classic/Compact”核心,以限制 CCD 的核心数量——尽管如果按照惯例,每个 CCD 的核心数量将与台式机部件相同。我们在“X-MB L3”列表中看到了同样的情况。“未来”项目符号在 EPYC CCD 旁边列出了同质和异质类型的芯片,有些人可能认为这意味着 AMD 可能会推出一些具有混合核心类型的 Zen 5 EPYC 芯片——这将是第一次。但是,请注意,项目符号列表是功能的经验列表,而不是仅与旁边列出的 EPYC CCD 相关。

AMD 还详细阐述了 Zen 5c 紧凑型核心的原理和目标。与英特尔的方法不同,两种 Zen 5 核心类型都支持 SMT 和相同的指令集 (ISA),从而避免了英特尔在不同核心类型上面临的调度问题——英特尔的核心类型不支持相同的 ISA。

AMD的方法也不同于英特尔,因为它优先考虑在多核工作负载期间使 Zen 5c 核心的性能尽可能接近标准核心。这可以防止较大核心等待较小核心完成工作负载的情况,这对于具有线程依赖性的多核工作负载等情况非常重要。这避免了 Zen 首席架构师 Mike Clark 所说的“调度悬崖”,如果将工作负载安排到 Zen 5c 核心中,性能将出现巨大差异,从而对用户体验产生负面影响。

最终,目标是在两种核心类型之间提供尽可能最小的差异。因此,AMD 并没有设定 Zen 5c 设计目标,而是针对较小的内核设定了特定的电压/频率 (V/F) 曲线。

与所有处理器一样,由于功率和热限制,Zen 5 的时钟频率会随着加载更多内核而下降。这意味着当四个性能内核处于活动状态时,处理器的时钟速度将低于一个活动内核时。AMD 使用加载频率作为指导,决定在何处定义紧凑内核的 V/F 曲线目标,从而保持两种内核类型之间的速度差异。

降低 Zen 5c 的频率目标使该公司能够将设计分解为更少、更大的块,这些块的位置更近,从而带来降低功耗的好处。AMD 移除了 5c 内核中不再需要的高速中继器和缓冲电路,以达到标准内核支持的最大频率。再加上每个内核的 L3 缓存容量更低,与标准内核相比,Zen 5c 的内核面积大大减少。

最终,与标准 Zen 5 核心相比,AMD 将 Zen 5c 核心的面积减少了约 25%(Clark 指出这是一个大概的数字)。这低于我们在 EPYC Bergamo 处理器中使用的 Zen 4c 核心中看到的 35% 的减少(上面的幻灯片供参考)。

Clark表示,对于具有不同性能目标的紧凑核心(同质)设计,Zen 5 核心可以进一步压缩(作为参考,Bergamo 只有紧凑核心),但这种设计满足了这种特定异构设计的目标。因此,我们可能会看到其他产品中出现更密集的 Zen 5c 核心设计。

毫无疑问,Zen 5c 的核心面积减少 25% 令人印象深刻,特别是如果 AMD 设法将核心之间的性能差异保持在较低水平。但是,只有测试才能说明问题。我们似乎也找不到 AMD 网站上列出的 Zen 5c 核心的时钟,但我们正在跟进以获取更多详细信息。

AMD Strix Point和Granite Ridge

AMD 提供了Strix Point SoC 的细分,提供了更多细节。最有趣的花絮是不同计算单元之间的各种数据路径宽度。这些数据路径通过 Infinity Fabric 与内存通信。

Zen5 和 Zen 5c 核心集群都有自己的 32B/周期端口,这意味着 CCX 之间的 L3 缓存到缓存传输将受到限制。同时,带宽需求大的 GPU 有四个 32B/周期端口。XDNA 神经处理单元 (NPU) 也有自己的单个 32B/周期数据结构接口。我们还看到了固定功能加速器块的标准补充,例如视频编码/解码等。Strix 支持 LPDDR5-7500 和 DDR5-5600 内存。

值得注意的是,AMD 削减了 PCIe 通道分配。按照其移动部件的惯例,AMD 退回到上一代 PCIe 接口(在本例中为 PCIe 4.0)以节省电量。然而,AMD 还将连接通道数从 20 条减少到了 16 条,并表示做出这一决定是因为该公司确定额外的 4 条通道几乎总是用于二级存储。然而,AMD 表示,这种用例在这一领域并不常见(低连接率)。因此,AMD 认为减少通道数是一种可接受的权衡,可以减少引脚数,从而有助于节省芯片和基板面积(减少与芯片和系统板的连接),同时进一步降低功耗。

Ryzen 9000 台式机芯片中的 Granite Ridge SoC 惊喜较少,布局与上一代芯片相似。事实上,SoC 使用与 Zen 4 Ryzen 7000 芯片相同的 IOD。这意味着 CPU 对 DDR5-5600 内存、28 条 PCIe 5.0 通道、五个 USB 端口和来自集成 RDNA 2 图形引擎的四个显示流具有相同的支持。使用相同的 IOD

遵循 AMD 的标准政策,即尽可能智能重用。RDNA 2 引擎足以满足 AMD 的目的——它实际上只是为了点亮显示器,仅此而已。它还允许 AMD 保持与以前相同的封装尺寸,从而减轻其继续支持 AM5 平台的努力。iGPU 具有双 32B/周期端口到 Infinity Fabric。IOD

与一个或两个八核 CCD 配对。具有单个 CCD 的处理器具有 32B/周期读/写端口,用于通过芯片到芯片 (D2D) Infinity Fabric 连接与 IOD 进行通信。但是,与以前一样,双 CCD 芯片在 IOD 之间具有 16B/周期写入和 32B/周期读取连接,以节省高功率 SERDES 的功耗并简化封装布局。接口的大小在这里很重要,因为设计在两个芯片的情况下空间更加受限。AMD 表示,它已经描述了实际工作负载,并发现读取与写入的典型比率为 3:1,因此性能基本不受 16B/周期写入带宽减少的影响。

Granite Ridge “Eldora” CCD 在 70.6 平方毫米的硅片上封装了 83.15 亿个 TSMC N4P 晶体管,相当于 117.78 MTr/平方毫米的晶体管密度,比 Zen 4 的 Durango CCD 提高了 28%。Strix

Point 的芯片面积为 232.5 平方毫米,比上一代 Hawk Point 的 178 平方毫米大得多。这主要是因为两个芯片都使用相同的工艺节点,但 Strix 拥有更多的内核和缓存。Strix 还拥有功能更强大、因此也更大的集成 GPU——多达 16 个 RDNA 3.5 计算单元,而 Hawk/Phoenix Point 只有 12 个 RDNA 3 CU。AMD 尚未公布 Strix 的晶体管数量,但我们正在跟进更多细节。

参考链接

点这里 加关注,锁定更多原创内容

The above content is for informational or educational purposes only and does not constitute any investment advice related to Futu. Although we strive to ensure the truthfulness, accuracy, and originality of all such content, we cannot guarantee it.
    Write a comment