追蹤AI最新趨勢

專題 743條資訊 13454人訂閱

馬斯克突發Grok 1.5！上下文長度至128k、HumanEval得分超GPT-4

量子位 · 03/29 20:08

來源：量子位

就在剛剛，馬斯克Grok大模型宣佈重大升級。

難怪之前突然開源了Grok-1，因爲他有更強的Grok-1.5了，主打推理能力。

來自xAI的官方推送啥也沒說，直接甩鏈接。主打一個“字少事大”

新版本Grok有啥突破？

一是上下文長度飆升，從8192增長到128k，和GPT-4齊平。

二是推理性能大幅提升，數學能力直接漲點50%之多、HumanEval數據集上得分超過GPT-4。

消息一出，評論區立刻就躁起來了。

具體跑分結果如何，咱們立馬來看。

Grok-1.5來了

首先，對於上下文窗口。

這次是一把直接提升到之前的16倍，來到128k量級。

這也就意味着Grok可以處理更長和更復雜的提示，同時保持其遵循指令的能力。

在“大海撈針”（NIAH）測試中，Grok-1.5在128K token的上下文中完美檢索嵌入的文本。

整個圖一水兒的藍色（100%的檢索深度）：

其次，推理方面。

Grok-1.5處理編程和數學相關任務的能力大幅提升，全面超越Grok-1、Mistral Large、Claude 2。

數學方面，Grok-1.5在MATH基準測試上得分50.6%，超越中杯Claude 3 Sonnet；GSM8K上得分90%。

編程方面，Grok-1.5在HumanEval基準測試上得分74.1%，超越中杯Claude 3 Sonnet、Gemini Pro1.5、GPT-4，僅次於大杯Claude 3 Opus。

看起來，Grok這次的實力也是不可小覷。

Grok系列與其他大模型相比還有一個特色，不使用通用的Python語言+Pytorch框架。

據官方介紹，Grok 1.5採用分佈式訓練架構，使用Rust、JAX+Kubernetes構建。

爲了提高訓練可靠性和維持正常運行時間，團隊提出了自定義訓練協調器，可自動檢測到有問題的節點，然後剔除。

除此之外，他們還優化了checkpointing、數據加載和訓練重啓等流程，最大限度地減少故障停機時間。

這，才速速有了現在的Grok 1.5～

更多信息官方也暫時還沒有披露。

可以確定的是，新版本未來幾天會先推送給早期測試者。並按照“老規矩”，很快將在?平台上線。

網友們表示：Grok進步真的相當迅速。

不提別的，Grok新版本各指標已經全面超越Claude 2。而xAI成立僅一年，只比Anthropic落後9個月。因此：

打賭12個月後，xAI完全有可能成爲領導者。

還有人評價更高，認爲馬斯克這是發了另一個“GPT-4等效模型”，喊着：

OpenAI搞快點啊。

你期待新版本的Grok嗎？

編輯/lambor

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

追蹤AI最新趨勢

马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

馬斯克突發Grok 1.5！上下文長度至128k、HumanEval得分超GPT-4

Grok-1.5来了

Grok-1.5來了

追蹤AI最新趨勢

马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

馬斯克突發Grok 1.5！上下文長度至128k、HumanEval得分超GPT-4

Grok-1.5来了

Grok-1.5來了

風險及免責聲明

聲明