史上最快大模型炸場！Groq一夜爆紅，自研LPU速度碾壓英偉達GPU

来源：华尔街见闻

一觉醒来，AI圈又变天了。

还没消化完Sora带来的震撼，又一家硅谷初创企业带着史上最快的大模型和自研芯片LPU霸占了热搜。

就在昨天，AI芯片创企Groq（不是马斯克的Gork）开放了自家产品的免费试用。相比其他AI聊天机器人，Groq闪电般的响应速度迅速引爆互联网讨论。经过网友测试，Groq每秒生成速度接近500 tok/s，碾压GPT-4的40 tok/s。

有网友震惊地说：

它回复的速度比我眨眼还快。

不过，需要强调的是，Groq并没有研发新模型，它只是一个模型启动器，主页上运行的是开源模型Mixtral 8x7B-32k和Llama 270B-4k。

冠绝大模型圈子的响应速度，来自驱动模型的硬件——Groq并未使用$英伟达 (NVDA.US)$的GPU，而是自研了新型AI芯片——LPU（Language Processing Units）。

每秒500 tokens，写论文比你眨眼还快

LPU最突出的特点就是快。

根据2024年一月的测试结果，由Groq LPU驱动$Meta Platforms (META.US)$ Llama 2模型，推理性能遥遥领先，是顶级云计算供应商的18倍。

华尔街见闻此前文章提及，Groq LPU搭配Meta Llama 2 70B能在7分钟内就能生成与莎士比亚《哈姆雷特》相同数量的单词，比普通人的打字速度快75倍。

如下图所示，有推特网友问了一个和营销有关的专业问题，Groq在四秒钟之内就输出了上千词的长篇大论。

还有网友测试同时用Gemini、GPT-4和Groq完成一个代码调试问题。

结果，Groq的输出速度比Gemini快10倍，比GPT-4快18倍。

Groq在速度上对其他AI模型的降维打击，让网友直呼，“AI推理界的美国队长来了”。

LPU，英伟达GPU的挑战者？

再强调一遍，Groq没有开发新的模型，它只是用了不一样的芯片。

根据Groq官网的介绍，LPU是一种专为AI推理所设计的芯片。驱动包括GPT等主流大模型的GPU，是一种为图形渲染而设计的并行处理器，有数百个内核，而LPU架构则与GPU使用的SIMD（单指令，多数据）不同，这种设计可以让芯片更有效地利用每个时钟周期，确保一致的延迟和吞吐量，也降低了复杂调度硬件的需求：

Groq的LPU推理引擎不是普通的处理单元；它是一个端到端系统，专为需要大量计算和连续处理的应用（如LLM）提供最快的推理而设计。通过消除外部内存瓶颈，LPU推理引擎的性能比传统GPU高出几个数量级。

简单来说，对用户而言，最直观的体验就是“快”。

使用过GPT的读者一定知道，痛苦地等待大模型一个一个地吐出字符是一种怎样痛苦的体验，而LPU驱动下的大模型，基本可以做到实时响应。

比如下图，华尔街见闻向Groq询问LPU和GPU的区别，Groq生成这个回答用时不到3秒，完全不会像GPT、Gemini那样出现显著的延迟。如果以英文提问，生成速度还会更快。

Groq官方的介绍还显示，创新的芯片架构可以把多个张量流处理器（Tensor Streaming Processor，简称TSP）连接在一起，而不会出现GPU集群中的传统瓶颈，因此具有极高的可扩展性，简化了大规模AI模型的硬件要求。

能效也是LPU的另一个亮点。通过减少管理多个线程的开销和避免内核的利用率不足，LPU每瓦特可以提供更多的算力。

Groq创始人兼首席执行官Jonathan Ross在采访中，时时不忘给英伟达上眼药。

他此前对媒体表示，在大模型推理场景，Groq LPU芯片的速度比英伟达GPU快10倍，但价格和耗电量都仅为后者的十分之一。

实时推理是通过经过训练的AI模型运行数据的计算过程，以提供AI应用的即时结果，从而实现流畅的最终用户体验。随着AI大模型的发展，实时推理的需求激增。

Ross认为，对于在产品中使用人工智能的公司来说，推理成本正在成为一个问题，因为随着使用这些产品的客户数量增加，运行模型的成本也在迅速增加。与英伟达GPU相比，Groq LPU集群将为大模型推理提供更高的吞吐量、更低的延迟和更低的成本。

他还强调，Groq的芯片，由于技术路径不同，在供应方面比英伟达更充足，不会被$台积电 (TSM.US)$或者SK海力士等供应商卡脖子：

GroqChip LPU的独特之处在于，它不依赖于三星或SK海力士的HBM，也不依赖于台积电将外部HBM焊接到芯片上的CoWoS封装技术。

不过，另有一些AI专家在社交媒体上表示，Groq芯片的实际成本并不低。

如人工智能专家贾扬清分析称，Groq综合成本相当于英伟达GPU的30多倍。

考虑到每张Groq芯片的内存容量为230MB，实际运行模型需要572张芯片，总成本高达1144万美元。

相比之下，8张H100的系统在性能上与Groq系统相当，但硬件成本仅为30万美元，年度电费约2.4万美元。三年总运营成本对比显示，Groq系统的运营成本远高于H100系统，

而且，更关键的是，LPU目前仅用于推理，要训练大模型，仍然需要购买英伟达GPU。

创始人为谷歌TPU设计者之一相信未来2年能卖出100万个LPU

在今天互联网上一炮而红之前，Groq已经低调埋头研发7年多的时间。

公开资料显示，Groq成立于2016年，总部位于美国加州圣塔克拉拉山景城。公司创始人Jonathan Ross是前谷歌高级工程师，是$谷歌-A (GOOGL.US)$/$谷歌-C (GOOG.US)$自研AI芯片TPU的设计者之一。产品主管John Barrus曾在谷歌及$亚马逊 (AMZN.US)$担任产品高管。

高管内唯一一位华裔面孔、副总裁Estelle Hong，在公司任职已有四年，此前曾供职于美国军队及英特尔。

就在去年8月，Groq也宣布了和三星的合作计划，表示其下一代芯片将在美国德克萨斯州三星芯片工厂采用4纳米工艺生产，预计量产时间为24年下半年。

展望下一代LPU，Ross相信GroqChip的能效将提高15到20倍，可以在相同的功率范围内为设备增加更多的矩阵计算和SRAM存储器。

在去年底的采访中，Ross表示，考虑到GPU的短缺和高昂的成本，他相信Groq未来的发展潜力：

在12个月内，我们可以部署10万个LPU，在24个月内，我们可以部署100万个LPU。

编辑/jayden

來源：華爾街見聞

一覺醒來，AI圈又變天了。

還沒消化完Sora帶來的震撼，又一家硅谷初創企業帶着史上最快的大模型和自研芯片LPU霸佔了熱搜。

就在昨天，AI芯片創企Groq（不是馬斯克的Gork）開放了自家產品的免費試用。相比其他AI聊天機器人，Groq閃電般的響應速度迅速引爆互聯網討論。經過網友測試，Groq每秒生成速度接近500 tok/s，碾壓GPT-4的40 tok/s。

有網友震驚地說：

它回覆的速度比我眨眼還快。

不過，需要強調的是，Groq並沒有研發新模型，它只是一個模型啓動器，主頁上運行的是開源模型Mixtral 8x7B-32k和Llama 270B-4k。

冠絕大模型圈子的響應速度，來自驅動模型的硬件——Groq並未使用$英偉達 (NVDA.US)$的GPU，而是自研了新型AI芯片——LPU（Language Processing Units）。

每秒500 tokens，寫論文比你眨眼還快

LPU最突出的特點就是快。

根據2024年一月的測試結果，由Groq LPU驅動$Meta Platforms (META.US)$ Llama 2模型，推理性能遙遙領先，是頂級雲計算供應商的18倍。

華爾街見聞此前文章提及，Groq LPU搭配Meta Llama 2 70B能在7分鐘內就能生成與莎士比亞《哈姆雷特》相同數量的單詞，比普通人的打字速度快75倍。

如下圖所示，有推特網友問了一個和營銷有關的專業問題，Groq在四秒鐘之內就輸出了上千詞的長篇大論。

還有網友測試同時用Gemini、GPT-4和Groq完成一個代碼調試問題。

結果，Groq的輸出速度比Gemini快10倍，比GPT-4快18倍。

Groq在速度上對其他AI模型的降維打擊，讓網友直呼，“AI推理界的美國隊長來了”。

LPU，英偉達GPU的挑戰者？

再強調一遍，Groq沒有開發新的模型，它只是用了不一樣的芯片。

根據Groq官網的介紹，LPU是一種專爲AI推理所設計的芯片。驅動包括GPT等主流大模型的GPU，是一種爲圖形渲染而設計的並行處理器，有數百個內核，而LPU架構則與GPU使用的SIMD（單指令，多數據）不同，這種設計可以讓芯片更有效地利用每個時鐘週期，確保一致的延遲和吞吐量，也降低了複雜調度硬件的需求：

Groq的LPU推理引擎不是普通的處理單元；它是一個端到端系統，專爲需要大量計算和連續處理的應用（如LLM）提供最快的推理而設計。通過消除外部內存瓶頸，LPU推理引擎的性能比傳統GPU高出幾個數量級。

簡單來說，對用戶而言，最直觀的體驗就是“快”。

使用過GPT的讀者一定知道，痛苦地等待大模型一個一個地吐出字符是一種怎樣痛苦的體驗，而LPU驅動下的大模型，基本可以做到實時響應。

比如下圖，華爾街見聞向Groq詢問LPU和GPU的區別，Groq生成這個回答用時不到3秒，完全不會像GPT、Gemini那樣出現顯著的延遲。如果以英文提問，生成速度還會更快。

Groq官方的介紹還顯示，創新的芯片架構可以把多個張量流處理器（Tensor Streaming Processor，簡稱TSP）連接在一起，而不會出現GPU集群中的傳統瓶頸，因此具有極高的可擴展性，簡化了大規模AI模型的硬件要求。

能效也是LPU的另一個亮點。通過減少管理多個線程的開銷和避免內核的利用率不足，LPU每瓦特可以提供更多的算力。

Groq創始人兼首席執行官Jonathan Ross在採訪中，時時不忘給英偉達上眼藥。

他此前對媒體表示，在大模型推理場景，Groq LPU芯片的速度比英偉達GPU快10倍，但價格和耗電量都僅爲後者的十分之一。

實時推理是通過經過訓練的AI模型運行數據的計算過程，以提供AI應用的即時結果，從而實現流暢的最終用戶體驗。隨着AI大模型的發展，實時推理的需求激增。

Ross認爲，對於在產品中使用人工智能的公司來說，推理成本正在成爲一個問題，因爲隨着使用這些產品的客戶數量增加，運行模型的成本也在迅速增加。與英偉達GPU相比，Groq LPU集群將爲大模型推理提供更高的吞吐量、更低的延遲和更低的成本。

他還強調，Groq的芯片，由於技術路徑不同，在供應方面比英偉達更充足，不會被$台積電 (TSM.US)$或者SK海力士等供應商卡脖子：

GroqChip LPU的獨特之處在於，它不依賴於三星或SK海力士的HBM，也不依賴於台積電將外部HBM焊接到芯片上的CoWoS封裝技術。

不過，另有一些AI專家在社交媒體上表示，Groq芯片的實際成本並不低。

如人工智能專家賈揚清分析稱，Groq綜合成本相當於英偉達GPU的30多倍。

考慮到每張Groq芯片的內存容量爲230MB，實際運行模型需要572張芯片，總成本高達1144萬美元。

相比之下，8張H100的系統在性能上與Groq系統相當，但硬件成本僅爲30萬美元，年度電費約2.4萬美元。三年總運營成本對比顯示，Groq系統的運營成本遠高於H100系統，

而且，更關鍵的是，LPU目前僅用於推理，要訓練大模型，仍然需要購買英偉達GPU。

創始人爲谷歌TPU設計者之一相信未來2年能賣出100萬個LPU

在今天互聯網上一炮而紅之前，Groq已經低調埋頭研發7年多的時間。

公開資料顯示，Groq成立於2016年，總部位於美國加州聖塔克拉拉山景城。公司創始人Jonathan Ross是前谷歌高級工程師，是$谷歌-A (GOOGL.US)$/$谷歌-C (GOOG.US)$自研AI芯片TPU的設計者之一。產品主管John Barrus曾在谷歌及$亞馬遜 (AMZN.US)$擔任產品高管。

高管內唯一一位華裔面孔、副總裁Estelle Hong，在公司任職已有四年，此前曾供職於美國軍隊及英特爾。

就在去年8月，Groq也宣佈了和三星的合作計劃，表示其下一代芯片將在美國德克薩斯州三星芯片工廠採用4納米工藝生產，預計量產時間爲24年下半年。

展望下一代LPU，Ross相信GroqChip的能效將提高15到20倍，可以在相同的功率範圍內爲設備增加更多的矩陣計算和SRAM存儲器。

在去年底的採訪中，Ross表示，考慮到GPU的短缺和高昂的成本，他相信Groq未來的發展潛力：

在12個月內，我們可以部署10萬個LPU，在24個月內，我們可以部署100萬個LPU。

編輯/jayden

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

史上最快大模型炸场！Groq一夜爆红，自研LPU速度碾压英伟达GPU