這個餐盤一樣大的芯片，超越GPU

如果您希望可以时常见面，欢迎标星收藏哦~

来源：内容编译自nextplatform，谢谢。

就在几个月前，晶圆级计算先驱 Cerebras Systems 还夸口说，在运行由 Meta Platforms 创建的开源 Llama 3.1 基础模型时，将其少数几个 WSE-3 引擎连接在一起，可以超越基于 Nvidia“Hopper”H100 GPU 的 Nvidia GPU 实例。

现在，正如软件工程师终于赶上硬件功能时通常发生的那样，Cerebras 再次吹嘘说，在运行最新的 Llama 3.2 模型时，其推理性能优势更大。8 月至 10 月期间，AI 推理性能的飞跃是巨大的，提高了 3.5 倍，它拉开了 Cerebras CS-3 系统在本地或由 Cerebras 或其金主合作伙伴 Group 42运营的云中运行的差距。

与 AI 训练相比，AI 推理市场规模更大，而且在很多方面都更容易攻克，而 Nvidia 基本上已经锁定了 AI 训练市场。如果你想知道为什么 Cerebras 等了这么久才进入推理市场，答案很简单：该公司及其支持者希望在向华尔街推销该公司的首次公开募股时讲一个大故事。AI 训练是一个昂贵的大问题，但世界上大多数组织都没有资源来训练自己的模型，他们将寻找性能最高、成本最低的推理来部署他们的 AI 应用程序。

目前，基于 Artificial Analysis 完成的 Llama 3.2 70B 基准测试以及公有云上 GPU 实例、通常会提高性能的专用 GPU 云以及竞争对手 Groq 和 SambaNova Systems 的非 GPU 系统的定价公开数据，Cerebras 似乎确实在 AI 推理竞赛中获胜。

在这一轮推理基准比较中，Cerebras 专注于对仅在 Llama 3.2 70B 模型上运行的推理进行更新，顾名思义，该模型有 700 亿个参数。在 16 位数据分辨率下有 700 亿个参数，仅加载这些参数就需要 140 GB 内存，而每个 WSE-3 引擎只有 44 GB 的片上 SRAM 内存，因此仅加载 Llama 70B 模型的参数并留出一些内存来运行它们就需要三个多一点的 WSE-3 引擎和四个 CS-3 系统节点。（我们在 3 月份对 WSE-3 引擎和 CS-3 系统进行了深入研究。）

CS-3 节点与晶圆上的结构互连，晶圆上的结构是 CS-3 架构的一部分，由其 SwarmX 网络堆栈管理。每个 WSE-3 晶圆的额定速度为 125 千万亿次浮点运算（由晶圆上的 900,000 个张量核心驱动），在其 44 GB 的 SRAM 块上具有 21 PB/秒的总带宽，并为 SwarmX 网络提供 214 PB/秒的总带宽。

Cerebras 在 AI 推理方面所展现出的性能飞跃通常需要一两年的时间，但这并不罕见。Nvidia 的 GPU 硬件和软件很好地说明了这一原理。一般来说，自 Pascal 以来的每一代新 GPU 都仅基于硬件就为 AI 工作负载提供了大约 2 倍的性能。而到下一代硬件问世时，软件堆栈的性能已经提高了 4 到 5 倍，使旧硬件的性能提高了 8 到 10 倍。然后，软件调整和调优过程在新硬件上再次开始。

然而，根据 Cerebras 显示的数字，Nvidia 及其 GPU 合作伙伴最好开始进行调整。因为他们在性能和价格方面都受到了打击。让我们来看看这些数字。

根据人工智能分析，Llama 3.2 70B 推理的性能如下：

早在 8 月份，Cerebras 运行 Llama 3.1 70B 时每秒可推送 450 个token，而 9 月份，使用早期版本的 Llama 3.2 70B 时，每秒可推送 589 个token。通过这些调整和优化，Cerebras 的软件工程师能够在 8 月份使用的 CS-3 互连的相同四个节点上将其推送到惊人的每秒 2,100 个token。这是软件改进的 4.7 倍——这是 Nvidia 在两年内实现的。

现在，要么是 Cerebras 软件工程师没有做出承诺，因此他们能够在关键时刻超额完成任务——斯科特先生会感到无比自豪——要么他们取得了巨大而出乎意料的突破。Cerebras 并没有透露。但 Cerebras 产品营销总监、前 Nvidia GeForce 产品经理 James Wang 告诉The Next Platform，这可能是我们在 CS-3 处理器上可以期待的大部分性能提升。

顺便说一句，早在 8 月份，Cerebras 在运行 Llama 3.1 8B 模型时每秒就能产生 1,800 个令牌，因此无论该公司对其推理堆栈做出何种改变，它都能以高于以前 8B 的速度提供 70B 的推理，这意味着推理速度可以提高 17% 左右，从而更加准确。

对于 Cerebras 来说，重要的是，根据 Artificial Analysis 收集的数据，其 Llama 3.2 70B 性能比在各种云上使用“Hopper” H100 GPU 的八路 HGX 节点高出 8 倍到 22 倍，这些节点仅运行 3B 参数数量。请看一看：

看看这些基准测试的准确度差异会很有趣。但 Cerebras 可以运行密度高 23.3 倍的模型，速度可提高 8 倍到 22 倍——上图显示的数据中，平均速度快 13.2 倍——根据我们的计算，这是 308 倍的乘法推理性能优势。

如果将 Cerebras 云端每个token的定价与 Nvidia Hopper 云端 GPU 节点进行比较，Cerebras 在这里仍然具有优势：

我们不知道购买 Nvidia Hopper 系统和 Cerebras CS-3 系统的人是否反映了这种价格差异。所以要小心。但我们可以做一些计算来检查。

据我们了解，从 G42 上安装的 Condor Galaxy 超级计算机的讨论来看，576 个 CS-3 节点的成本约为 9 亿美元，即每个节点 156 万美元。带有 CPU 主机、主内存、闪存和网络适配器的 H100 HGX 节点的成本可能约为 37.5 万美元。对于四台 CS-3 机器，每令牌每秒的成本为 2,976 美元。

在公有云上，Llama 3.1 或 3.2 型号的性能并不高，性价比差别不大。如果您将上述性能图表中的云实例性能平均化，并将其作为 Llama 3.2 70B 推理性能的衡量标准，您将获得每秒 45.9 个令牌，即每秒每个令牌 8,170 美元。

因此，在购买铁矿石时，Cerebras 和云端 Hoppers 之间的性价比差异为 2.75 倍，但租用铁矿石时，性价比差异为 5.2 倍，这似乎意味着 Cerebras 在出租容量时损失惨重。出租容量和出售容量之间的这种差异不是一种商业模式，而是一家初创公司试图证明自己观点的亏本销售。但这是否可持续还有待观察。要找到答案，Cerebras 将不得不提高其销售和生产以降低硬件采购成本，而做到这一点的唯一方法是让很多人感兴趣，并在短期内因云而蒙受损失。

除了 Nvidia 和 AMD 之外，所有加速器供应商都在做同样的事情，因为他们在云端销售容量。

押注数据中心推理来推动 Cerebras 的收入流（实际上也是所有 AI 初创公司的收入流）很容易。推理开始越来越像训练，需要更多时间进行计算，需要更多计算才能更好地进行推理。此图表说明了思路链推理和代理 AI 将如何推动更密集的推理：

通过增加 10 倍到 100 倍的计算量来进行推理，Cerebras 可以开始获得足够的数量来降低其 WSE-3 引擎和 CS-3 系统的价格。

我们想知道，也是许多潜在的 Cerebras 客户想知道的是，CS-3 系统如何运行 Llama 3.2 405B 模型，顾名思义，该模型有 4050 亿个参数，并且在推理测试中的准确性比 70B、8B 和 3B 模型高得多。

“我们完全不害怕 405B，”王说。“事实上，我们现在正在提出 405B，我刚刚参加的会议就是讨论何时提出这个问题、以何种形式提出。所以你可以肯定地说，我们即将在 405B 领域发布一些内容。”

根据我们的计算，加载这个大型 Llama 3.2 模型中的 4050 亿个参数需要 810 GB 的内存，这意味着加载这些参数至少需要 18.4 个 WSE-3 引擎。为了便于讨论，我们将其称为 20 个引擎。这是一个价值 3125 万美元的集群，但至少您不必使用真正用于 AI 训练而不是推理的 MemoryX 内存集群。我们想知道将 20 个 CS-3 节点互连以运行如此大型的推理引擎对性能的影响。

“我们经常被问到这个问题：如果你在多个晶圆上运行，你的带宽不是受限的吗？”王承认。“我们将模型拆分成多个层，以适应这些不同的晶圆，节点间带宽要求非常低——大约是我们实际可用硬件带宽的 5%。真正需要带宽的是张量并行。这就是 Nvidia 必须做 NVLink 和 NVSwitch 的原因，对我们来说，这部分在我们的晶圆结构上工作。所以我们不害怕更大的模型。事实上，我们很期待它们。我们确实必须对内存进行一些优化，这样我们就不必使用太多的系统。”

按照我们的想法，Cerebras 需要 3D 垂直缓存来扩展其计算晶圆的内存，就像昨天一样。我们完全相信 WSE-3 计算引擎不是计算受限，而是 SRAM 容量受限。与其缩小晶圆晶体管来制造 WSE-4，不如希望它可以重新加工晶圆上的芯片，在芯片下方或上方拥有多个 SRAM 堆栈，就像 AMD 在其 Epyc CPU 的 X 版本上使用 3D V-Cache（上图）以及在 Instinct MI300X 和 MI300A GPU 上使用 Infinity Cache（下图）一样。理想情况下，每个 SRAM 堆栈可能会提供额外的 60 GB SRAM，虽然我们在这里做梦，但为什么不有三四个 SRAM 堆栈呢？假设模型将需要更多的内存容量和带宽。

Cerebras 架构中已经有足够的扩展空间用于 AI 训练，但更多的 SRAM 可能有助于训练和推理。

对于 CS-3 机器，企业客户可以选择 24 TB 和 36 TB 的 MemoryX 内存（一种用于晶圆上 SRAM 的缓存），而超大规模和云构建者可以选择 120 TB 和 1,200 TB，这为企业规模的高端提供了 4800 亿和 7200 亿个参数的存储，为超大规模和云构建者提供了 2.4 万亿或 24 万亿个参数。重要的是，所有这些 MemoryX 内存都可以独立于计算进行扩展——这是任何 GPU 甚至 Nvidia 的 Grace-Hopper 超级芯片混合芯片都无法做到的，后者也具有静态内存配置。

如果您希望可以時常見面，歡迎標星收藏哦~

來源：內容編譯自nextplatform，謝謝。

就在幾個月前，晶圓級計算先驅 Cerebras Systems 還誇口說，在運行由 Meta Platforms 創建的開源 Llama 3.1 基礎模型時，將其少數幾個 WSE-3 引擎連接在一起，可以超越基於 Nvidia「Hopper」H100 GPU 的 Nvidia GPU 實例。

現在，正如軟件工程師終於趕上硬件功能時通常發生的那樣，Cerebras 再次吹噓說，在運行最新的 Llama 3.2 模型時，其推理性能優勢更大。8 月至 10 月期間，AI 推理性能的飛躍是巨大的，提高了 3.5 倍，它拉開了 Cerebras CS-3 系統在本地或由 Cerebras 或其金主合作伙伴 Group 42運營的雲中運行的差距。

與 AI 訓練相比，AI 推理市場規模更大，而且在很多方面都更容易攻克，而 Nvidia 基本上已經鎖定了 AI 訓練市場。如果你想知道爲什麼 Cerebras 等了這麼久才進入推理市場，答案很簡單：該公司及其支持者希望在向華爾街推銷該公司的首次公開募股時講一個大故事。AI 訓練是一個昂貴的大問題，但世界上大多數組織都沒有資源來訓練自己的模型，他們將尋找性能最高、成本最低的推理來部署他們的 AI 應用程序。

目前，基於 Artificial Analysis 完成的 Llama 3.2 70B 基準測試以及公有云上 GPU 實例、通常會提高性能的專用 GPU 雲以及競爭對手 Groq 和 SambaNova Systems 的非 GPU 系統的定價公開數據，Cerebras 似乎確實在 AI 推理競賽中獲勝。

在這一輪推理基準比較中，Cerebras 專注於對僅在 Llama 3.2 70B 模型上運行的推理進行更新，顧名思義，該模型有 700 億個參數。在 16 位數據分辨率下有 700 億個參數，僅加載這些參數就需要 140 GB 內存，而每個 WSE-3 引擎只有 44 GB 的片上 SRAM 內存，因此僅加載 Llama 70B 模型的參數並留出一些內存來運行它們就需要三個多一點的 WSE-3 引擎和四個 CS-3 系統節點。（我們在 3 月份對 WSE-3 引擎和 CS-3 系統進行了深入研究。）

CS-3 節點與晶圓上的結構互連，晶圓上的結構是 CS-3 架構的一部分，由其 SwarmX 網絡堆棧管理。每個 WSE-3 晶圓的額定速度爲 125 千萬億次浮點運算（由晶圓上的 900,000 個張量核心驅動），在其 44 GB 的 SRAM 塊上具有 21 PB/秒的總帶寬，併爲 SwarmX 網絡提供 214 PB/秒的總帶寬。

Cerebras 在 AI 推理方面所展現出的性能飛躍通常需要一兩年的時間，但這並不罕見。Nvidia 的 GPU 硬件和軟件很好地說明了這一原理。一般來說，自 Pascal 以來的每一代新 GPU 都僅基於硬件就爲 AI 工作負載提供了大約 2 倍的性能。而到下一代硬件問世時，軟件堆棧的性能已經提高了 4 到 5 倍，使舊硬件的性能提高了 8 到 10 倍。然後，軟件調整和調優過程在新硬件上再次開始。

然而，根據 Cerebras 顯示的數字，Nvidia 及其 GPU 合作伙伴最好開始進行調整。因爲他們在性能和價格方面都受到了打擊。讓我們來看看這些數字。

根據人工智能分析，Llama 3.2 70B 推理的性能如下：

早在 8 月份，Cerebras 運行 Llama 3.1 70B 時每秒可推送 450 個token，而 9 月份，使用早期版本的 Llama 3.2 70B 時，每秒可推送 589 個token。通過這些調整和優化，Cerebras 的軟件工程師能夠在 8 月份使用的 CS-3 互連的相同四個節點上將其推送到驚人的每秒 2,100 個token。這是軟件改進的 4.7 倍——這是 Nvidia 在兩年內實現的。

現在，要麼是 Cerebras 軟件工程師沒有做出承諾，因此他們能夠在關鍵時刻超額完成任務——斯科特先生會感到無比自豪——要麼他們取得了巨大而出乎意料的突破。Cerebras 並沒有透露。但 Cerebras 產品營銷總監、前 Nvidia GeForce 產品經理 James Wang 告訴The Next Platform，這可能是我們在 CS-3 處理器上可以期待的大部分性能提升。

順便說一句，早在 8 月份，Cerebras 在運行 Llama 3.1 8B 模型時每秒就能產生 1,800 個令牌，因此無論該公司對其推理堆棧做出何種改變，它都能以高於以前 8B 的速度提供 70B 的推理，這意味着推理速度可以提高 17% 左右，從而更加準確。

對於 Cerebras 來說，重要的是，根據 Artificial Analysis 收集的數據，其 Llama 3.2 70B 性能比在各種雲上使用「Hopper」 H100 GPU 的八路 HGX 節點高出 8 倍到 22 倍，這些節點僅運行 3B 參數數量。請看一看：

看看這些基準測試的準確度差異會很有趣。但 Cerebras 可以運行密度高 23.3 倍的模型，速度可提高 8 倍到 22 倍——上圖顯示的數據中，平均速度快 13.2 倍——根據我們的計算，這是 308 倍的乘法推理性能優勢。

如果將 Cerebras 雲端每個token的定價與 Nvidia Hopper 雲端 GPU 節點進行比較，Cerebras 在這裏仍然具有優勢：

我們不知道購買 Nvidia Hopper 系統和 Cerebras CS-3 系統的人是否反映了這種價格差異。所以要小心。但我們可以做一些計算來檢查。

據我們了解，從 G42 上安裝的 Condor Galaxy 超級計算機的討論來看，576 個 CS-3 節點的成本約爲 9 億美元，即每個節點 156 萬美元。帶有 CPU 主機、主內存、閃存和網絡適配器的 H100 HGX 節點的成本可能約爲 37.5 萬美元。對於四臺 CS-3 機器，每令牌每秒的成本爲 2,976 美元。

在公有云上，Llama 3.1 或 3.2 型號的性能並不高，性價比差別不大。如果您將上述性能圖表中的雲實例性能平均化，並將其作爲 Llama 3.2 70B 推理性能的衡量標準，您將獲得每秒 45.9 個令牌，即每秒每個令牌 8,170 美元。

因此，在購買鐵礦石時，Cerebras 和雲端 Hoppers 之間的性價比差異爲 2.75 倍，但租用鐵礦石時，性價比差異爲 5.2 倍，這似乎意味着 Cerebras 在出租容量時損失慘重。出租容量和出售容量之間的這種差異不是一種商業模式，而是一家初創公司試圖證明自己觀點的虧本銷售。但這是否可持續還有待觀察。要找到答案，Cerebras 將不得不提高其銷售和生產以降低硬件採購成本，而做到這一點的唯一方法是讓很多人感興趣，並在短期內因雲而蒙受損失。

除了 Nvidia 和 AMD 之外，所有加速器供應商都在做同樣的事情，因爲他們在雲端銷售容量。

押注數據中心推理來推動 Cerebras 的收入流（實際上也是所有 AI 初創公司的收入流）很容易。推理開始越來越像訓練，需要更多時間進行計算，需要更多計算才能更好地進行推理。此圖表說明了思路鏈推理和代理 AI 將如何推動更密集的推理：

通過增加 10 倍到 100 倍的計算量來進行推理，Cerebras 可以開始獲得足夠的數量來降低其 WSE-3 引擎和 CS-3 系統的價格。

我們想知道，也是許多潛在的 Cerebras 客戶想知道的是，CS-3 系統如何運行 Llama 3.2 405B 模型，顧名思義，該模型有 4050 億個參數，並且在推理測試中的準確性比 70B、8B 和 3B 模型高得多。

「我們完全不害怕 405B，」王說。「事實上，我們現在正在提出 405B，我剛剛參加的會議就是討論何時提出這個問題、以何種形式提出。所以你可以肯定地說，我們即將在 405B 領域發佈一些內容。」

根據我們的計算，加載這個大型 Llama 3.2 模型中的 4050 億個參數需要 810 GB 的內存，這意味着加載這些參數至少需要 18.4 個 WSE-3 引擎。爲了便於討論，我們將其稱爲 20 個引擎。這是一個價值 3125 萬美元的集群，但至少您不必使用真正用於 AI 訓練而不是推理的 MemoryX 內存集群。我們想知道將 20 個 CS-3 節點互連以運行如此大型的推理引擎對性能的影響。

「我們經常被問到這個問題：如果你在多個晶圓上運行，你的帶寬不是受限的嗎？」王承認。「我們將模型拆分成多個層，以適應這些不同的晶圓，節點間帶寬要求非常低——大約是我們實際可用硬件帶寬的 5%。真正需要帶寬的是張量並行。這就是 Nvidia 必須做 NVLink 和 NVSwitch 的原因，對我們來說，這部分在我們的晶圓結構上工作。所以我們不害怕更大的模型。事實上，我們很期待它們。我們確實必須對內存進行一些優化，這樣我們就不必使用太多的系統。」

按照我們的想法，Cerebras 需要 3D 垂直緩存來擴展其計算晶圓的內存，就像昨天一樣。我們完全相信 WSE-3 計算引擎不是計算受限，而是 SRAM 容量受限。與其縮小晶圓晶體管來製造 WSE-4，不如希望它可以重新加工晶圓上的芯片，在芯片下方或上方擁有多個 SRAM 堆棧，就像 AMD 在其 Epyc CPU 的 X 版本上使用 3D V-Cache（上圖）以及在 Instinct MI300X 和 MI300A GPU 上使用 Infinity Cache（下圖）一樣。理想情況下，每個 SRAM 堆棧可能會提供額外的 60 GB SRAM，雖然我們在這裏做夢，但爲什麼不有三四個 SRAM 堆棧呢？假設模型將需要更多的內存容量和帶寬。

Cerebras 架構中已經有足夠的擴展空間用於 AI 訓練，但更多的 SRAM 可能有助於訓練和推理。

對於 CS-3 機器，企業客戶可以選擇 24 TB 和 36 TB 的 MemoryX 內存（一種用於晶圓上 SRAM 的緩存），而超大規模和雲構建者可以選擇 120 TB 和 1,200 TB，這爲企業規模的高端提供了 4800 億和 7200 億個參數的存儲，爲超大規模和雲構建者提供了 2.4 萬億或 24 萬億個參數。重要的是，所有這些 MemoryX 內存都可以獨立於計算進行擴展——這是任何 GPU 甚至 Nvidia 的 Grace-Hopper 超級芯片混合芯片都無法做到的，後者也具有靜態內存配置。

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

这个餐盘一样大的芯片，超越GPU

這個餐盤一樣大的芯片，超越GPU

風險及免責聲明

聲明