share_log

这一新型内存技术,优势显著

半导体行业观察 ·  Oct 6 10:37

如果您希望可以时常见面,欢迎标星 收藏哦~

来源:内容编译自nextplatform ,谢谢。

根据英特尔内部分析,英特尔最近展示了一种称为多路复用器组合列 (MCR)(也称为 MRDIMM)的新型 DIMM 内存技术,与第五代英特尔至强处理器相比,该技术可为 HPC 工作负载提供高达 2.3 倍的性能提升,为 AI 推理工作负载提供高达 2 倍的性能提升。

英特尔副总裁兼 Xeon 6 产品总经理Matt Langman最近介绍了运行HPC工作负载 Nemo(欧洲海洋建模核心)的新技术。Nemo是一种模拟工作负载,用于模拟海洋温度、海平面变化、盐度和其他热力学和生物地球化学指标。英特尔两周前推出的带有 P 核的 Xeon 6 CPU(俗称“Granite Rapids” )与MCR内存相结合,与采用传统DDR内存的第五代英特尔“Sapphire Rapids”Xeon SP相比,运行速度提高2.3倍。基于英特尔内存控制器的创新以及更多内核和内存通道,高带宽MRDIMM技术可显著提升性能。

英特尔战略规划师 Nate Mather 解释了这种更快内存技术对许多客户的价值主张,他指出:“与 DDR5 RDIMM 相比,MRDIMM 可提供更大的带宽提升,为客户提供一个有趣的新选择点。在现有平台上,性能大幅提升 30% 到 40%,让客户能够灵活地选择他们的 AI 和 HPC 工作负载。”

l 绩效预测与验证

截至 5 月份的英特尔性能预测表明,12 个通道的 MRDIMM 内存与架构增强相结合意味着最新的英特尔至强处理器(代号 Granite Rapids)将为 HPC 和 AI 工作负载提供整体性能提升。

这已被实践所证明。

在德国汉堡举行的 2024 年国际超级计算大会 (ISC) 上,英特尔发布了多项公告,包括报告早期性能结果,结果表明,与上一代系统相比,MRDIMM 配置系统可为 NEMO 等实际 HPC 应用程序提供高达 2.3 倍的性能提升。这表明,新技术为 HPC 解决方案的首选主机 CPU 奠定了坚实的基础。

美光科技证实,其最近发布的 64 GB、96 GB 和 128 GB 容量的 MRDIMM 模块与 RDIMM 相比,平均带宽增幅达到或超过了 1.3 倍。

l 平台兼容——无需更改软件

在两排 DDR5 内存之间添加数据缓冲区(如下所示)意味着可以封装和访问 MR 内存技术,从而与 DDR5 RDIMM 完全平台兼容,同时还具有一系列新处理器功能:

ž 对于当前系统,MRDIMM 模块能够同时访问单个内存芯片,正如英特尔在英特尔 Hot Chips 2023 演示文稿第 9 张幻灯片中指出的那样。这些 MRDIMM可以比 6400 个 RDIMM 实现多 37% 以上的带宽。

ž 当 MRDIMM 同时操作两排 DDR5 内存并向 CPU 提供 128 个字节(每排 64 个字节)时,其带宽魔力便会显现出来。这意味着 CPU 可以以高于传统 DDR5 RDIMM 的速率执行突发操作,在双插槽系统中实现超过 1.5 TB/秒的内存带宽能力。通过以 2 倍 DRAM 速度操作 CPU 到 MRDIMM 接口来实现更高的带宽,每个 DRAM 排都能够在每个周期发送或接收数据。此外,它还为 CPU 提供了多达 12 个内存通道和一系列 Intel Xeon 架构改进(其中许多改进提供了更多未完成的内存请求和预取功能),从而提高了性能。

ž 最新的英特尔至强处理器(代号为 Granite Rapids)将支持非常高的核心数,新技术可提供 1S-8S 的可扩展性以及每个通道最多 2 个 RDIMMS 或 MRDIMM。

l DDR5 外形兼容性

英特尔数据中心和 AI 部门 Xeon 产品经理 Bhanu Jaiswal 表示:“MRDIMM 在外形尺寸上与当今的 DDR5 RDIMM 兼容。您无需重新设计系统板或牺牲任何 DDR5 可靠性、可用性和可维护性 (RAS) 功能。无需对软件进行任何更改。简而言之,在相同的系统设计中提供更多带宽。”当然, DDR5 RAS 功能在现代服务器中是绝对必要的。

Jaiswal 表示,HPC 的优势在于支持 MRDIMM 的 Intel Xeon 新内存技术将使大多数内存带宽受限的工作负载受益。对于 HPC 工作负载,这一点在许多技术文章中都有体现。

更高的内存带宽意味着处理器可以让更多内核保持活跃,以完成更多有用的工作(例如,更好的性能)。带宽的提升对于满足现代 CPU 快速增长的内核数量以及确保内核得到有效利用至关重要。内存带宽的增加还有利于英特尔为支持各种 AI、HPC 和数据中心工作负载而开发的其他性能特性。

英特尔即将推出的 AVX10 融合矢量 ISA包含针对深度学习和 HPC 工作负载的改进,这些工作负载受益于矢量处理,例如科学模拟和数据分析。较大的寄存器大小意味着 CPU 内核可以在一个时钟周期内对多个数据执行相同的操作,而不必对较小的数据执行多个周期。MRDIMMS 将在提供数据以保持此矢量 ISA 繁忙方面非常有用。AVX10 版本 1 将仅在 Granite Rapids Xeon 6 CPU 中推出,完整版本将在后续几代中得到支持。

因此,当您查看服务器时,请记住,内存带宽是许多工作负载(包括 AI 和 HPC 领域中的工作负载)的首要性能限制因素,但仅靠内存带宽不足以满足许多客户工作负载的需求。这就是 Xeon 6 处理器内部采用片上增强型模块化网格和优化内核的原因,与上一代 Xeon 处理器相比,预计其性能将提高 2 到 3 倍。更妙的是,增加的内存带宽有助于释放在越来越多的 CPU 内核数量下运行这些关键工作负载所需的性能。

The above content is for informational or educational purposes only and does not constitute any investment advice related to Futu. Although we strive to ensure the truthfulness, accuracy, and originality of all such content, we cannot guarantee it.
    Write a comment