share_log

推理芯片市场,Groq重磅宣布

推理芯片市場,Groq重磅宣佈

半導體行業觀察 ·  2024/01/10 01:37

如果您希望可以時常見面,歡迎標星 收藏哦~

來源:內容來自半導體行業觀察(ID:icbank)綜合,謝謝。

在消費者生成型 AI 應用中,對速度的需求至關重要,只有Groq LPU 推理引擎在開源大型語言模型 (LLM) 上每秒爲每個用戶生成300 個token,例如來自Meta-AI的 Llama 2 70B。以這種速度,七分鐘內就可以輸入與莎士比亞的《哈姆雷特》相同數量的單詞,這比普通人的打字速度快 75 倍。

隨着實時推理的需求激增,實時推理是通過經過訓練的 AI 模型運行數據的計算過程,以提供 AI 應用程序的即時結果,從而實現流暢的最終用戶體驗,Groq 競相將其技術推向市場。

Groq API 的搶先體驗將於 2024 年 1 月 15 日開始提供,使獲得批准的用戶能夠試驗 在 Groq LPU 推理引擎上運行的Llama 2 70B 、Mistral、Falcon、Vicuna 和 Jais。

Groq LPU 推理引擎已被領先的聊天代理、機器人、金融科技和國家實驗室用於研究和企業應用。

Groq 合作伙伴和客戶aiXplain在多方面計劃中使用 API,以在其創新產品和服務組合中利用實時推理。

自 2023 年 12 月 21 日起,公衆可以通過GroqChat自行嘗試,GroqChat 是在 Groq LPU 推理引擎上運行的 Meta AI 基礎 LLM 的 alpha 版本。

“推理是人工智能領域的下一個重大事件,”aiXplain 首席執行官兼創始人哈桑·薩瓦夫 (Hassan Sawaf) 說道。“我們一直在尋找正確的解決方案,將多種可立即投入生產的人工智能創意變爲現實,但這些產品和服務的實時推理需求使得這似乎是一項不可能完成的任務。直到我們找到了 Groq。只有 Groq LPU 推理引擎才能提供必要的低延遲速度,以保持用戶的參與度,超越新奇感,並使這些產品取得長期成功。”

“aiXplain 所做的就是爲客戶創造魔法,”羅斯說。“在 Groq,我們的目標是通過加速生成式 AI 應用程序使其成爲身臨其境的體驗,從而營造一種敬畏感。感謝 aiXplain 和 Groq 之間的合作,今天真正實現了與 AI 的互動。”

兩年內要部署100萬顆AI推理芯片

如果您正在尋找 Nvidia GPU 的替代品來進行 AI 推理(如今生成式 AI 已成爲自火山爆發以來最熱門的事物,誰不喜歡)那麼您可能需要給 Groq 打電話。該公司正在加大語言處理單元(LPU)(也稱爲 GroqChip)的生產,預計能夠大量出貨以支持大型語言模型的推理。

正如我們現在喜歡說的那樣,如果你有一個可以支持生成式人工智能模型的矩陣數學引擎,那麼你可以把它賣給那些渴望在生成式人工智能熱潮初期不被拋在後面的人。Cerebras Systems 的CS -2 晶圓級處理器、SambaNova Systems 的 SN40L 可重構數據流單元以及Intel 的 Gaudi 2 及其後續 Gaudi 3 引擎只是非 Nvidia GPU 或 AMD 的計算引擎的幾個示例,他們 之所以受到關注,是因爲採用的 HBM 內存和先進封裝的需求限制了英偉達和AMD的供應。GroqChip LPU 的獨特之處在於,它們不依賴於三星或 SK Hynix 的 HBM 以及台積電的 CoWoS 封裝(將外部 HBM 焊接到計算芯片)。

中國的“OceanLight”超級計算機基於14納米工藝蝕刻的國產SW26010-Pro處理器,事實證明,您不必使用先進的工藝和封裝來構建可以獲得真正的HPC和AI的計算引擎。OceanLight 架構躋身有史以來計算效率最高的機器之列,並且在運行實際工作負載方面可能比橡樹嶺國家實驗室的“Frontier”超級計算機更強大,如果戈登貝爾獎的提交和獎項有任何變化的話措施。

因此,Groq 聯合創始人兼首席執行官 Jonathan Ross 完全與時俱進,他認爲與使用 Nvidia GPU 相比,Groq LPU 集群將爲 LLM 推理提供更高的吞吐量、更低的延遲和更低的成本。誠然,對於幾年前首次推出的 14 納米芯片來說,這是一項艱鉅的任務,其靈感來自谷歌本土的張量處理單元 (TPU)。但正如任何人都可以清楚地看到的那樣,Nvidia 和 AMD 對 GPU 的高需求和相對低的供應量爲 Groq 和其他矩陣數學引擎供應商提供了他們一直在等待的機會。

我們面臨的問題是,到目前爲止,是什麼阻礙了 Groq。是他們的軟件堆棧還沒有準備好嗎?是不是 AI 模型是爲 GPU 創建的,需要進行調整?沒有。

“我會直接解釋我們受到什麼限制,”Ross告訴The Next Platform,正如你想象的那樣,我們喜歡這種事情。“這個領域有 100 家初創公司,他們都聲稱自己的性能將比 Nvidia 好 10 倍,人們會深入研究,但這往往不會實現。我們的故事非常複雜,因爲我們做事的方式非常不同。沒有人購買某樣東西是因爲某樣東西更好,而是因爲他們有未解決的問題。你必須解決一個未解決的問題。直到最近,我們去找人們,給他們一個問題,說如果你改用我們的芯片,我們可以降低你的成本,或者我們可以加快速度,他們告訴我們它足夠快,足夠便宜,你只是給我帶來了問題。但現在,人們有了這些模型,他們跑得不夠快。所以我們正在解決他們的問題,這是一個非常不同的銷售動議。直到大約兩個月前我們得到了大型語言模型推理的演示爲止,我們的興趣爲零。現在,我們正在用棍子打走人們,並且我們正在內部就如何向客戶分配硬件進行鬥爭。我們的前 40 個機架已經分配完畢,按照我們的記錄計劃,我們相信在未來 12 個月內每秒部署的數量相當於 OpenAI 的所有代幣,並且可能會部署更多。我們擁有不受阻礙的供應鏈——我們沒有 HBM,我們沒有 CoWoS,因此我們不會與他們所有人競爭這些技術。”

讓技術經濟替代開始吧!

以下是 Groq 爲商業級推理提出的建議,該推理必須對 LLM 回覆具有亞秒級響應時間。當前一代 GroqChips 的 Pod 具有光學互連,可以跨 264 個芯片進行擴展,如果在 Pod 之間放置交換機,則可以進一步擴展,但會在 Pod 之間跨越交換機跳躍,從而增加延遲。Ross 表示,在下一代 GroqRack 集群中,該系統將在單個結構上擴展到 4,128 個 GroqChips,但這尚未準備好投入市場。Groq 的下一代 GroqChip 將於 2025 年推出,採用三星 4 納米工藝蝕刻,由於工藝縮小、架構增強以及芯片結構的進步,其尺寸將進一步擴大。

爲了進行基準測試,Groq 將 576 個 GroqChips 連接在一起,並對 Meta Platforms 的 LLaMA 2 模型進行推理,擴展到 700 億個參數。GroqRack 有 9 個節點,通常其中 8 個節點用於計算,1 個節點作爲冗餘空間,但對於基準測試,所有 9 個節點都用於計算,以便在這 8 個機架上的 3 個交換節點中鏈接 574 個節點。(每個節點有八個 GroqCard 適配器。

LLAMA 2 提示在 INT8 處理時有 512 個令牌輸入和 1,024 個令牌輸出,Groq 將此設置與 Nvidia H100 GPU 進行比較 - 這是一個八 CPU HGX 系統板,該系統板正在成爲生成式 AI 訓練的計算單元有時還進行推理——這 576 個 GPU 可以用十分之一的時間和生成代幣成本的十分之一進行推理。Nvidia GPU 需要大約 10 焦耳到 30 焦耳才能生成響應中的令牌,而 Groq 設置每個令牌大約需要 1 焦耳到 3 焦耳。因此,推理速度提高了 10 倍,成本卻降低了十分之一,或者說性價比提高了 100 倍。

再讀一遍:Groq 表示,它可以以 10 倍的 LLaMA 2 推理速度提供 100 倍的性價比。

現在,可以說有更多的 Groq 設備可以實現這一目標——一臺 Nvidia 服務器與 8 個 Groq 設備機架相比——但在 10 倍速度的情況下,總體成本卻只有1/10,這是無可爭辯的。你燒的空間越多,燒的錢就越少。

當然,您可以將 Nvidia 的 SuperPOD 在單個內存空間中擴展到 256 個 GPU,這確實允許更大的模型和更多的並行處理,以加快每秒的令牌速度。但這是以支付跨這些節點的 NVSwitch 結構的費用爲代價的,而這並不是免費的。

在 Ross 爲我們做的演示中,具有 576 個芯片的 Groq 設置能夠根據我們所做的提示每秒推送超過 300 個令牌,他說典型的 Nvidia GPU 設置很幸運,可以每秒推送 10 個令牌到 30 個令牌。

Groq 方法寬、慢且功耗低,並且在許多單元上並行運行,並在計算旁邊有大量本地 SRAM 內存,而 Nvidia 方法在矩陣數學上更快,在主內存上更快。堆疊起來並並行運行。

Ross 宣稱:“在 12 個月內,我們可以部署 100,000 個 LPU,在 24 個月內,我們可以部署 100 萬個 LPU。”而且不難相信,這不僅是可能的,而且由於缺乏,它還可以出售。GPU 成本高昂,而且許多組織希望放棄 OpenAI 的 GPT-3.5 和 GPT-4 等專有模型,轉向 Meta Platforms 的非常開放的 LLaMA 2。

如果您有一個可以運行 PyTorch 和 LLaMA 2 的計算引擎,並且成本不高,您可以將其出售。

展望下一代 GroqChip,Ross 表示,從 14 納米 GlobalFoundries 轉向 4 納米三星製造工藝,其能效將提高 15 至 20 倍。這將允許在相同的功率範圍內將更多的矩陣計算和 SRAM 存儲器添加到設備中——多少還有待觀察。我們認爲,在恒定功率下,在完全相同的設計上執行相同工作的芯片數量將減少 3.5 倍,而架構改進可能會減少 5 倍甚至更高。因此,今天需要在 9 個機架中使用 576 個 GroqChips 才能完成 LLaMA 2 70B 推理,到 2025 年可能只需要在兩個機架中使用大約 100 個芯片。

在此期間,Groq 推出了一個新節點,該節點中的芯片數量增加了 4 倍,從當前 GroqNode 中 PCI-Express 卡上實現的 8 個 LPU 到我們推測將直接安裝在 GroqNode 上的 LPU 芯片。四塊主板(每塊板有 8 個 LPU)相互連接,在一個機箱中可容納 32 個主板。Ross 表示,通過在一個節點中使用 32 個 LPU,整個集群的成本、功耗和延遲都會下降。

“這將阻止我們,直到我們獲得下一個芯片,”他補充道。

現在,Ross 可能會說它可以在 24 個月內部署100 萬個 LPU,但這並不意味着客戶會在這段時間內購買那麼多。但即使按一次 1,000 美元計算,也將達到 10 億美元。

另外,不要混淆以十分之一的成本生成代幣的想法與整個系統成本的十分之一的想法。測試的 Groq 集群具有非常高的吞吐量和非常高的容量,這就是它獲得非常低的延遲的原因。但我們非常確定,配備 576 個 LPU 的 Groq 系統的成本還不到 DGX H100 的十分之一,後者目前的運行價格已超過 400,000 美元。如果您能以 40,000 美元的價格購買 576 個 LPU,請務必立即向 Groq 下訂單。對於數據中心級 AI 推理引擎及其機箱和網絡而言,您很難找到比每臺 69 美元更好的價格了。

我們強烈懷疑 Groq 在我們看到的數據中談論的是每秒每個令牌的焦耳數,也許還有當您將 Nvidia 基礎設施擴展到 GPU 的 NVSwitch 相干互連限制之外時的延遲,這在推理方面是一個真正的障礙潛伏。點這裏 加關注,鎖定更多原創內容

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
評論 評論 · 瀏覽 1774

熱點推薦

搶先評論

聲明

本頁的譯文內容由軟件翻譯。富途將竭力但卻不能保證翻譯內容之準確和可靠,亦不會承擔因任何不準確或遺漏而引起的任何損失或損害。