share_log

史上最快大模型炸场!Groq一夜爆红,自研LPU速度碾压英伟达GPU

史上最快大模型炸場!Groq一夜爆紅,自研LPU速度碾壓英偉達GPU

華爾街見聞 ·  02/20 20:39

來源:華爾街見聞

一覺醒來,AI圈又變天了。

還沒消化完Sora帶來的震撼,又一家硅谷初創企業帶着史上最快的大模型和自研芯片LPU霸佔了熱搜。

就在昨天,AI芯片創企Groq(不是馬斯克的Gork)開放了自家產品的免費試用。相比其他AI聊天機器人,Groq閃電般的響應速度迅速引爆互聯網討論。經過網友測試,Groq每秒生成速度接近500 tok/s,碾壓GPT-4的40 tok/s。

有網友震驚地說:

它回覆的速度比我眨眼還快。

不過,需要強調的是,Groq並沒有研發新模型,它只是一個模型啓動器,主頁上運行的是開源模型Mixtral 8x7B-32k和Llama 270B-4k。

冠絕大模型圈子的響應速度,來自驅動模型的硬件——Groq並未使用$英偉達 (NVDA.US)$的GPU,而是自研了新型AI芯片——LPU(Language Processing Units)。

每秒500 tokens,寫論文比你眨眼還快

LPU最突出的特點就是快。

根據2024年一月的測試結果,由Groq LPU驅動$Meta Platforms (META.US)$ Llama 2模型,推理性能遙遙領先,是頂級雲計算供應商的18倍。

圖片來源:GIT HUB
圖片來源:GIT HUB

華爾街見聞此前文章提及,Groq LPU搭配Meta Llama 2 70B能在7分鐘內就能生成與莎士比亞《哈姆雷特》相同數量的單詞,比普通人的打字速度快75倍。

如下圖所示,有推特網友問了一個和營銷有關的專業問題,Groq在四秒鐘之內就輸出了上千詞的長篇大論。

還有網友測試同時用Gemini、GPT-4和Groq完成一個代碼調試問題。

結果,Groq的輸出速度比Gemini快10倍,比GPT-4快18倍。

Groq在速度上對其他AI模型的降維打擊,讓網友直呼,“AI推理界的美國隊長來了”。

LPU,英偉達GPU的挑戰者?

再強調一遍,Groq沒有開發新的模型,它只是用了不一樣的芯片。

根據Groq官網的介紹,LPU是一種專爲AI推理所設計的芯片。驅動包括GPT等主流大模型的GPU,是一種爲圖形渲染而設計的並行處理器,有數百個內核,而LPU架構則與GPU使用的SIMD(單指令,多數據)不同,這種設計可以讓芯片更有效地利用每個時鐘週期,確保一致的延遲和吞吐量,也降低了複雜調度硬件的需求:

Groq的LPU推理引擎不是普通的處理單元;它是一個端到端系統,專爲需要大量計算和連續處理的應用(如LLM)提供最快的推理而設計。通過消除外部內存瓶頸,LPU推理引擎的性能比傳統GPU高出幾個數量級。

簡單來說,對用戶而言,最直觀的體驗就是“快”。

使用過GPT的讀者一定知道,痛苦地等待大模型一個一個地吐出字符是一種怎樣痛苦的體驗,而LPU驅動下的大模型,基本可以做到實時響應。

比如下圖,華爾街見聞向Groq詢問LPU和GPU的區別,Groq生成這個回答用時不到3秒,完全不會像GPT、Gemini那樣出現顯著的延遲。如果以英文提問,生成速度還會更快。

Groq官方的介紹還顯示,創新的芯片架構可以把多個張量流處理器(Tensor Streaming Processor,簡稱TSP)連接在一起,而不會出現GPU集群中的傳統瓶頸,因此具有極高的可擴展性,簡化了大規模AI模型的硬件要求。

能效也是LPU的另一個亮點。通過減少管理多個線程的開銷和避免內核的利用率不足,LPU每瓦特可以提供更多的算力。

Groq創始人兼首席執行官Jonathan Ross在採訪中,時時不忘給英偉達上眼藥。

他此前對媒體表示,在大模型推理場景,Groq LPU芯片的速度比英偉達GPU快10倍,但價格和耗電量都僅爲後者的十分之一。

實時推理是通過經過訓練的AI模型運行數據的計算過程,以提供AI應用的即時結果,從而實現流暢的最終用戶體驗。隨着AI大模型的發展,實時推理的需求激增。

Ross認爲,對於在產品中使用人工智能的公司來說,推理成本正在成爲一個問題,因爲隨着使用這些產品的客戶數量增加,運行模型的成本也在迅速增加。與英偉達GPU相比,Groq LPU集群將爲大模型推理提供更高的吞吐量、更低的延遲和更低的成本。

他還強調,Groq的芯片,由於技術路徑不同,在供應方面比英偉達更充足,不會被$台積電 (TSM.US)$或者SK海力士等供應商卡脖子:

GroqChip LPU的獨特之處在於,它不依賴於三星或SK海力士的HBM,也不依賴於台積電將外部HBM焊接到芯片上的CoWoS封裝技術。

不過,另有一些AI專家在社交媒體上表示,Groq芯片的實際成本並不低。

如人工智能專家賈揚清分析稱,Groq綜合成本相當於英偉達GPU的30多倍。

考慮到每張Groq芯片的內存容量爲230MB,實際運行模型需要572張芯片,總成本高達1144萬美元。

相比之下,8張H100的系統在性能上與Groq系統相當,但硬件成本僅爲30萬美元,年度電費約2.4萬美元。三年總運營成本對比顯示,Groq系統的運營成本遠高於H100系統,

而且,更關鍵的是,LPU目前僅用於推理,要訓練大模型,仍然需要購買英偉達GPU。

創始人爲谷歌TPU設計者之一 相信未來2年能賣出100萬個LPU

在今天互聯網上一炮而紅之前,Groq已經低調埋頭研發7年多的時間。

公開資料顯示,Groq成立於2016年,總部位於美國加州聖塔克拉拉山景城。公司創始人Jonathan Ross是前谷歌高級工程師,是$谷歌-A (GOOGL.US)$/$谷歌-C (GOOG.US)$自研AI芯片TPU的設計者之一。產品主管John Barrus曾在谷歌及$亞馬遜 (AMZN.US)$擔任產品高管。

高管內唯一一位華裔面孔、副總裁Estelle Hong,在公司任職已有四年,此前曾供職於美國軍隊及英特爾。

就在去年8月,Groq也宣佈了和三星的合作計劃,表示其下一代芯片將在美國德克薩斯州三星芯片工廠採用4納米工藝生產,預計量產時間爲24年下半年。

展望下一代LPU,Ross相信GroqChip的能效將提高15到20倍,可以在相同的功率範圍內爲設備增加更多的矩陣計算和SRAM存儲器。

在去年底的採訪中,Ross表示,考慮到GPU的短缺和高昂的成本,他相信Groq未來的發展潛力

在12個月內,我們可以部署10萬個LPU,在24個月內,我們可以部署100萬個LPU。

編輯/jayden

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論