來源:量子位
就在剛剛,馬斯克Grok大模型宣佈重大升級。
難怪之前突然開源了Grok-1,因爲他有更強的Grok-1.5了,主打推理能力。
來自xAI的官方推送啥也沒說,直接甩鏈接。主打一個“字少事大”
新版本Grok有啥突破?
一是上下文長度飆升,從8192增長到128k,和GPT-4齊平。
二是推理性能大幅提升,數學能力直接漲點50%之多、HumanEval數據集上得分超過GPT-4。
消息一出,評論區立刻就躁起來了。
具體跑分結果如何,咱們立馬來看。
Grok-1.5來了
首先,對於上下文窗口。
這次是一把直接提升到之前的16倍,來到128k量級。
這也就意味着Grok可以處理更長和更復雜的提示,同時保持其遵循指令的能力。
在“大海撈針”(NIAH)測試中,Grok-1.5在128K token的上下文中完美檢索嵌入的文本。
整個圖一水兒的藍色(100%的檢索深度):
其次,推理方面。
Grok-1.5處理編程和數學相關任務的能力大幅提升,全面超越Grok-1、Mistral Large、Claude 2。
數學方面,Grok-1.5在MATH基準測試上得分50.6%,超越中杯Claude 3 Sonnet;GSM8K上得分90%。
編程方面,Grok-1.5在HumanEval基準測試上得分74.1%,超越中杯Claude 3 Sonnet、Gemini Pro1.5、GPT-4,僅次於大杯Claude 3 Opus。
看起來,Grok這次的實力也是不可小覷。
Grok系列與其他大模型相比還有一個特色,不使用通用的Python語言+Pytorch框架。
據官方介紹,Grok 1.5採用分佈式訓練架構,使用Rust、JAX+Kubernetes構建。
爲了提高訓練可靠性和維持正常運行時間,團隊提出了自定義訓練協調器,可自動檢測到有問題的節點,然後剔除。
除此之外,他們還優化了checkpointing、數據加載和訓練重啓等流程,最大限度地減少故障停機時間。
這,才速速有了現在的Grok 1.5~
更多信息官方也暫時還沒有披露。
可以確定的是,新版本未來幾天會先推送給早期測試者。並按照“老規矩”,很快將在?平台上線。
網友們表示:Grok進步真的相當迅速。
不提別的,Grok新版本各指標已經全面超越Claude 2。而xAI成立僅一年,只比Anthropic落後9個月。因此:
打賭12個月後,xAI完全有可能成爲領導者。
還有人評價更高,認爲馬斯克這是發了另一個“GPT-4等效模型”,喊着:
OpenAI搞快點啊。
你期待新版本的Grok嗎?
編輯/lambor