share_log

这个餐盘一样大的芯片,超越GPU

半导体行业观察 ·  Oct 26 10:06

如果您希望可以时常见面,欢迎标星 收藏哦~

来源:内容编译自nextplatform,谢谢。

就在几个月前,晶圆级计算先驱 Cerebras Systems 还夸口说,在运行由 Meta Platforms 创建的开源 Llama 3.1 基础模型时,将其少数几个 WSE-3 引擎连接在一起,可以超越基于 Nvidia“Hopper”H100 GPU 的 Nvidia GPU 实例。

现在,正如软件工程师终于赶上硬件功能时通常发生的那样,Cerebras 再次吹嘘说,在运行最新的 Llama 3.2 模型时,其推理性能优势更大。8 月至 10 月期间,AI 推理性能的飞跃是巨大的,提高了 3.5 倍,它拉开了 Cerebras CS-3 系统在本地或由 Cerebras 或其金主合作伙伴 Group 42运营的云中运行的差距。

与 AI 训练相比,AI 推理市场规模更大,而且在很多方面都更容易攻克,而 Nvidia 基本上已经锁定了 AI 训练市场。如果你想知道为什么 Cerebras 等了这么久才进入推理市场,答案很简单:该公司及其支持者希望在向华尔街推销该公司的首次公开募股时讲一个大故事。AI 训练是一个昂贵的大问题,但世界上大多数组织都没有资源来训练自己的模型,他们将寻找性能最高、成本最低的推理来部署他们的 AI 应用程序。

目前,基于 Artificial Analysis 完成的 Llama 3.2 70B 基准测试以及公有云上 GPU 实例、通常会提高性能的专用 GPU 云以及竞争对手 Groq 和 SambaNova Systems 的非 GPU 系统的定价公开数据,Cerebras 似乎确实在 AI 推理竞赛中获胜。

在这一轮推理基准比较中,Cerebras 专注于对仅在 Llama 3.2 70B 模型上运行的推理进行更新,顾名思义,该模型有 700 亿个参数。在 16 位数据分辨率下有 700 亿个参数,仅加载这些参数就需要 140 GB 内存,而每个 WSE-3 引擎只有 44 GB 的片上 SRAM 内存,因此仅加载 Llama 70B 模型的参数并留出一些内存来运行它们就需要三个多一点的 WSE-3 引擎和四个 CS-3 系统节点。(我们在 3 月份对 WSE-3 引擎和 CS-3 系统进行了深入研究。)

CS-3 节点与晶圆上的结构互连,晶圆上的结构是 CS-3 架构的一部分,由其 SwarmX 网络堆栈管理。每个 WSE-3 晶圆的额定速度为 125 千万亿次浮点运算(由晶圆上的 900,000 个张量核心驱动),在其 44 GB 的 SRAM 块上具有 21 PB/秒的总带宽,并为 SwarmX 网络提供 214 PB/秒的总带宽。

Cerebras 在 AI 推理方面所展现出的性能飞跃通常需要一两年的时间,但这并不罕见。Nvidia 的 GPU 硬件和软件很好地说明了这一原理。一般来说,自 Pascal 以来的每一代新 GPU 都仅基于硬件就为 AI 工作负载提供了大约 2 倍的性能。而到下一代硬件问世时,软件堆栈的性能已经提高了 4 到 5 倍,使旧硬件的性能提高了 8 到 10 倍。然后,软件调整和调优过程在新硬件上再次开始。

然而,根据 Cerebras 显示的数字,Nvidia 及其 GPU 合作伙伴最好开始进行调整。因为他们在性能和价格方面都受到了打击。让我们来看看这些数字。

根据人工智能分析,Llama 3.2 70B 推理的性能如下:

早在 8 月份,Cerebras 运行 Llama 3.1 70B 时每秒可推送 450 个token,而 9 月份,使用早期版本的 Llama 3.2 70B 时,每秒可推送 589 个token。通过这些调整和优化,Cerebras 的软件工程师能够在 8 月份使用的 CS-3 互连的相同四个节点上将其推送到惊人的每秒 2,100 个token。这是软件改进的 4.7 倍——这是 Nvidia 在两年内实现的。

现在,要么是 Cerebras 软件工程师没有做出承诺,因此他们能够在关键时刻超额完成任务——斯科特先生会感到无比自豪——要么他们取得了巨大而出乎意料的突破。Cerebras 并没有透露。但 Cerebras 产品营销总监、前 Nvidia GeForce 产品经理 James Wang 告诉The Next Platform,这可能是我们在 CS-3 处理器上可以期待的大部分性能提升。

顺便说一句,早在 8 月份,Cerebras 在运行 Llama 3.1 8B 模型时每秒就能产生 1,800 个令牌,因此无论该公司对其推理堆栈做出何种改变,它都能以高于以前 8B 的速度提供 70B 的推理,这意味着推理速度可以提高 17% 左右,从而更加准确。

对于 Cerebras 来说,重要的是,根据 Artificial Analysis 收集的数据,其 Llama 3.2 70B 性能比在各种云上使用“Hopper” H100 GPU 的八路 HGX 节点高出 8 倍到 22 倍,这些节点仅运行 3B 参数数量。请看一看:

看看这些基准测试的准确度差异会很有趣。但 Cerebras 可以运行密度高 23.3 倍的模型,速度可提高 8 倍到 22 倍——上图显示的数据中,平均速度快 13.2 倍——根据我们的计算,这是 308 倍的乘法推理性能优势。

如果将 Cerebras 云端每个token的定价与 Nvidia Hopper 云端 GPU 节点进行比较,Cerebras 在这里仍然具有优势:

我们不知道购买 Nvidia Hopper 系统和 Cerebras CS-3 系统的人是否反映了这种价格差异。所以要小心。但我们可以做一些计算来检查。

据我们了解,从 G42 上安装的 Condor Galaxy 超级计算机的讨论来看,576 个 CS-3 节点的成本约为 9 亿美元,即每个节点 156 万美元。带有 CPU 主机、主内存、闪存和网络适配器的 H100 HGX 节点的成本可能约为 37.5 万美元。对于四台 CS-3 机器,每令牌每秒的成本为 2,976 美元。

在公有云上,Llama 3.1 或 3.2 型号的性能并不高,性价比差别不大。如果您将上述性能图表中的云实例性能平均化,并将其作为 Llama 3.2 70B 推理性能的衡量标准,您将获得每秒 45.9 个令牌,即每秒每个令牌 8,170 美元。

因此,在购买铁矿石时,Cerebras 和云端 Hoppers 之间的性价比差异为 2.75 倍,但租用铁矿石时,性价比差异为 5.2 倍,这似乎意味着 Cerebras 在出租容量时损失惨重。出租容量和出售容量之间的这种差异不是一种商业模式,而是一家初创公司试图证明自己观点的亏本销售。但这是否可持续还有待观察。要找到答案,Cerebras 将不得不提高其销售和生产以降低硬件采购成本,而做到这一点的唯一方法是让很多人感兴趣,并在短期内因云而蒙受损失。

除了 Nvidia 和 AMD 之外,所有加速器供应商都在做同样的事情,因为他们在云端销售容量。

押注数据中心推理来推动 Cerebras 的收入流(实际上也是所有 AI 初创公司的收入流)很容易。推理开始越来越像训练,需要更多时间进行计算,需要更多计算才能更好地进行推理。此图表说明了思路链推理和代理 AI 将如何推动更密集的推理:

通过增加 10 倍到 100 倍的计算量来进行推理,Cerebras 可以开始获得足够的数量来降低其 WSE-3 引擎和 CS-3 系统的价格。

我们想知道,也是许多潜在的 Cerebras 客户想知道的是,CS-3 系统如何运行 Llama 3.2 405B 模型,顾名思义,该模型有 4050 亿个参数,并且在推理测试中的准确性比 70B、8B 和 3B 模型高得多。

“我们完全不害怕 405B,”王说。“事实上,我们现在正在提出 405B,我刚刚参加的会议就是讨论何时提出这个问题、以何种形式提出。所以你可以肯定地说,我们即将在 405B 领域发布一些内容。”

根据我们的计算,加载这个大型 Llama 3.2 模型中的 4050 亿个参数需要 810 GB 的内存,这意味着加载这些参数至少需要 18.4 个 WSE-3 引擎。为了便于讨论,我们将其称为 20 个引擎。这是一个价值 3125 万美元的集群,但至少您不必使用真正用于 AI 训练而不是推理的 MemoryX 内存集群。我们想知道将 20 个 CS-3 节点互连以运行如此大型的推理引擎对性能的影响。

“我们经常被问到这个问题:如果你在多个晶圆上运行,你的带宽不是受限的吗?”王承认。“我们将模型拆分成多个层,以适应这些不同的晶圆,节点间带宽要求非常低——大约是我们实际可用硬件带宽的 5%。真正需要带宽的是张量并行。这就是 Nvidia 必须做 NVLink 和 NVSwitch 的原因,对我们来说,这部分在我们的晶圆结构上工作。所以我们不害怕更大的模型。事实上,我们很期待它们。我们确实必须对内存进行一些优化,这样我们就不必使用太多的系统。”

按照我们的想法,Cerebras 需要 3D 垂直缓存来扩展其计算晶圆的内存,就像昨天一样。我们完全相信 WSE-3 计算引擎不是计算受限,而是 SRAM 容量受限。与其缩小晶圆晶体管来制造 WSE-4,不如希望它可以重新加工晶圆上的芯片,在芯片下方或上方拥有多个 SRAM 堆栈,就像 AMD 在其 Epyc CPU 的 X 版本上使用 3D V-Cache(上图)以及在 Instinct MI300X 和 MI300A GPU 上使用 Infinity Cache(下图)一样。理想情况下,每个 SRAM 堆栈可能会提供额外的 60 GB SRAM,虽然我们在这里做梦,但为什么不有三四个 SRAM 堆栈呢?假设模型将需要更多的内存容量和带宽。

Cerebras 架构中已经有足够的扩展空间用于 AI 训练,但更多的 SRAM 可能有助于训练和推理。

对于 CS-3 机器,企业客户可以选择 24 TB 和 36 TB 的 MemoryX 内存(一种用于晶圆上 SRAM 的缓存),而超大规模和云构建者可以选择 120 TB 和 1,200 TB,这为企业规模的高端提供了 4800 亿和 7200 亿个参数的存储,为超大规模和云构建者提供了 2.4 万亿或 24 万亿个参数。重要的是,所有这些 MemoryX 内存都可以独立于计算进行扩展——这是任何 GPU 甚至 Nvidia 的 Grace-Hopper 超级芯片混合芯片都无法做到的,后者也具有静态内存配置。

The above content is for informational or educational purposes only and does not constitute any investment advice related to Futu. Although we strive to ensure the truthfulness, accuracy, and originality of all such content, we cannot guarantee it.
    Write a comment