share_log

这个餐盘一样大的芯片,超越GPU

這個餐盤一樣大的芯片,超越GPU

半導體行業觀察 ·  10/26 10:06

如果您希望可以時常見面,歡迎標星 收藏哦~

來源:內容編譯自nextplatform,謝謝。

就在幾個月前,晶圓級計算先驅 Cerebras Systems 還誇口說,在運行由 Meta Platforms 創建的開源 Llama 3.1 基礎模型時,將其少數幾個 WSE-3 引擎連接在一起,可以超越基於 Nvidia「Hopper」H100 GPU 的 Nvidia GPU 實例。

現在,正如軟件工程師終於趕上硬件功能時通常發生的那樣,Cerebras 再次吹噓說,在運行最新的 Llama 3.2 模型時,其推理性能優勢更大。8 月至 10 月期間,AI 推理性能的飛躍是巨大的,提高了 3.5 倍,它拉開了 Cerebras CS-3 系統在本地或由 Cerebras 或其金主合作伙伴 Group 42運營的雲中運行的差距。

與 AI 訓練相比,AI 推理市場規模更大,而且在很多方面都更容易攻克,而 Nvidia 基本上已經鎖定了 AI 訓練市場。如果你想知道爲什麼 Cerebras 等了這麼久才進入推理市場,答案很簡單:該公司及其支持者希望在向華爾街推銷該公司的首次公開募股時講一個大故事。AI 訓練是一個昂貴的大問題,但世界上大多數組織都沒有資源來訓練自己的模型,他們將尋找性能最高、成本最低的推理來部署他們的 AI 應用程序。

目前,基於 Artificial Analysis 完成的 Llama 3.2 70B 基準測試以及公有云上 GPU 實例、通常會提高性能的專用 GPU 雲以及競爭對手 Groq 和 SambaNova Systems 的非 GPU 系統的定價公開數據,Cerebras 似乎確實在 AI 推理競賽中獲勝。

在這一輪推理基準比較中,Cerebras 專注於對僅在 Llama 3.2 70B 模型上運行的推理進行更新,顧名思義,該模型有 700 億個參數。在 16 位數據分辨率下有 700 億個參數,僅加載這些參數就需要 140 GB 內存,而每個 WSE-3 引擎只有 44 GB 的片上 SRAM 內存,因此僅加載 Llama 70B 模型的參數並留出一些內存來運行它們就需要三個多一點的 WSE-3 引擎和四個 CS-3 系統節點。(我們在 3 月份對 WSE-3 引擎和 CS-3 系統進行了深入研究。)

CS-3 節點與晶圓上的結構互連,晶圓上的結構是 CS-3 架構的一部分,由其 SwarmX 網絡堆棧管理。每個 WSE-3 晶圓的額定速度爲 125 千萬億次浮點運算(由晶圓上的 900,000 個張量核心驅動),在其 44 GB 的 SRAM 塊上具有 21 PB/秒的總帶寬,併爲 SwarmX 網絡提供 214 PB/秒的總帶寬。

Cerebras 在 AI 推理方面所展現出的性能飛躍通常需要一兩年的時間,但這並不罕見。Nvidia 的 GPU 硬件和軟件很好地說明了這一原理。一般來說,自 Pascal 以來的每一代新 GPU 都僅基於硬件就爲 AI 工作負載提供了大約 2 倍的性能。而到下一代硬件問世時,軟件堆棧的性能已經提高了 4 到 5 倍,使舊硬件的性能提高了 8 到 10 倍。然後,軟件調整和調優過程在新硬件上再次開始。

然而,根據 Cerebras 顯示的數字,Nvidia 及其 GPU 合作伙伴最好開始進行調整。因爲他們在性能和價格方面都受到了打擊。讓我們來看看這些數字。

根據人工智能分析,Llama 3.2 70B 推理的性能如下:

早在 8 月份,Cerebras 運行 Llama 3.1 70B 時每秒可推送 450 個token,而 9 月份,使用早期版本的 Llama 3.2 70B 時,每秒可推送 589 個token。通過這些調整和優化,Cerebras 的軟件工程師能夠在 8 月份使用的 CS-3 互連的相同四個節點上將其推送到驚人的每秒 2,100 個token。這是軟件改進的 4.7 倍——這是 Nvidia 在兩年內實現的。

現在,要麼是 Cerebras 軟件工程師沒有做出承諾,因此他們能夠在關鍵時刻超額完成任務——斯科特先生會感到無比自豪——要麼他們取得了巨大而出乎意料的突破。Cerebras 並沒有透露。但 Cerebras 產品營銷總監、前 Nvidia GeForce 產品經理 James Wang 告訴The Next Platform,這可能是我們在 CS-3 處理器上可以期待的大部分性能提升。

順便說一句,早在 8 月份,Cerebras 在運行 Llama 3.1 8B 模型時每秒就能產生 1,800 個令牌,因此無論該公司對其推理堆棧做出何種改變,它都能以高於以前 8B 的速度提供 70B 的推理,這意味着推理速度可以提高 17% 左右,從而更加準確。

對於 Cerebras 來說,重要的是,根據 Artificial Analysis 收集的數據,其 Llama 3.2 70B 性能比在各種雲上使用「Hopper」 H100 GPU 的八路 HGX 節點高出 8 倍到 22 倍,這些節點僅運行 3B 參數數量。請看一看:

看看這些基準測試的準確度差異會很有趣。但 Cerebras 可以運行密度高 23.3 倍的模型,速度可提高 8 倍到 22 倍——上圖顯示的數據中,平均速度快 13.2 倍——根據我們的計算,這是 308 倍的乘法推理性能優勢。

如果將 Cerebras 雲端每個token的定價與 Nvidia Hopper 雲端 GPU 節點進行比較,Cerebras 在這裏仍然具有優勢:

我們不知道購買 Nvidia Hopper 系統和 Cerebras CS-3 系統的人是否反映了這種價格差異。所以要小心。但我們可以做一些計算來檢查。

據我們了解,從 G42 上安裝的 Condor Galaxy 超級計算機的討論來看,576 個 CS-3 節點的成本約爲 9 億美元,即每個節點 156 萬美元。帶有 CPU 主機、主內存、閃存和網絡適配器的 H100 HGX 節點的成本可能約爲 37.5 萬美元。對於四臺 CS-3 機器,每令牌每秒的成本爲 2,976 美元。

在公有云上,Llama 3.1 或 3.2 型號的性能並不高,性價比差別不大。如果您將上述性能圖表中的雲實例性能平均化,並將其作爲 Llama 3.2 70B 推理性能的衡量標準,您將獲得每秒 45.9 個令牌,即每秒每個令牌 8,170 美元。

因此,在購買鐵礦石時,Cerebras 和雲端 Hoppers 之間的性價比差異爲 2.75 倍,但租用鐵礦石時,性價比差異爲 5.2 倍,這似乎意味着 Cerebras 在出租容量時損失慘重。出租容量和出售容量之間的這種差異不是一種商業模式,而是一家初創公司試圖證明自己觀點的虧本銷售。但這是否可持續還有待觀察。要找到答案,Cerebras 將不得不提高其銷售和生產以降低硬件採購成本,而做到這一點的唯一方法是讓很多人感興趣,並在短期內因雲而蒙受損失。

除了 Nvidia 和 AMD 之外,所有加速器供應商都在做同樣的事情,因爲他們在雲端銷售容量。

押注數據中心推理來推動 Cerebras 的收入流(實際上也是所有 AI 初創公司的收入流)很容易。推理開始越來越像訓練,需要更多時間進行計算,需要更多計算才能更好地進行推理。此圖表說明了思路鏈推理和代理 AI 將如何推動更密集的推理:

通過增加 10 倍到 100 倍的計算量來進行推理,Cerebras 可以開始獲得足夠的數量來降低其 WSE-3 引擎和 CS-3 系統的價格。

我們想知道,也是許多潛在的 Cerebras 客戶想知道的是,CS-3 系統如何運行 Llama 3.2 405B 模型,顧名思義,該模型有 4050 億個參數,並且在推理測試中的準確性比 70B、8B 和 3B 模型高得多。

「我們完全不害怕 405B,」王說。「事實上,我們現在正在提出 405B,我剛剛參加的會議就是討論何時提出這個問題、以何種形式提出。所以你可以肯定地說,我們即將在 405B 領域發佈一些內容。」

根據我們的計算,加載這個大型 Llama 3.2 模型中的 4050 億個參數需要 810 GB 的內存,這意味着加載這些參數至少需要 18.4 個 WSE-3 引擎。爲了便於討論,我們將其稱爲 20 個引擎。這是一個價值 3125 萬美元的集群,但至少您不必使用真正用於 AI 訓練而不是推理的 MemoryX 內存集群。我們想知道將 20 個 CS-3 節點互連以運行如此大型的推理引擎對性能的影響。

「我們經常被問到這個問題:如果你在多個晶圓上運行,你的帶寬不是受限的嗎?」王承認。「我們將模型拆分成多個層,以適應這些不同的晶圓,節點間帶寬要求非常低——大約是我們實際可用硬件帶寬的 5%。真正需要帶寬的是張量並行。這就是 Nvidia 必須做 NVLink 和 NVSwitch 的原因,對我們來說,這部分在我們的晶圓結構上工作。所以我們不害怕更大的模型。事實上,我們很期待它們。我們確實必須對內存進行一些優化,這樣我們就不必使用太多的系統。」

按照我們的想法,Cerebras 需要 3D 垂直緩存來擴展其計算晶圓的內存,就像昨天一樣。我們完全相信 WSE-3 計算引擎不是計算受限,而是 SRAM 容量受限。與其縮小晶圓晶體管來製造 WSE-4,不如希望它可以重新加工晶圓上的芯片,在芯片下方或上方擁有多個 SRAM 堆棧,就像 AMD 在其 Epyc CPU 的 X 版本上使用 3D V-Cache(上圖)以及在 Instinct MI300X 和 MI300A GPU 上使用 Infinity Cache(下圖)一樣。理想情況下,每個 SRAM 堆棧可能會提供額外的 60 GB SRAM,雖然我們在這裏做夢,但爲什麼不有三四個 SRAM 堆棧呢?假設模型將需要更多的內存容量和帶寬。

Cerebras 架構中已經有足夠的擴展空間用於 AI 訓練,但更多的 SRAM 可能有助於訓練和推理。

對於 CS-3 機器,企業客戶可以選擇 24 TB 和 36 TB 的 MemoryX 內存(一種用於晶圓上 SRAM 的緩存),而超大規模和雲構建者可以選擇 120 TB 和 1,200 TB,這爲企業規模的高端提供了 4800 億和 7200 億個參數的存儲,爲超大規模和雲構建者提供了 2.4 萬億或 24 萬億個參數。重要的是,所有這些 MemoryX 內存都可以獨立於計算進行擴展——這是任何 GPU 甚至 Nvidia 的 Grace-Hopper 超級芯片混合芯片都無法做到的,後者也具有靜態內存配置。

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論