近日,上海多模態大模型獨角獸MiniMax正式推出abab 6.5系列模型,包含abab 6.5和abab 6.5s兩個模型。
MiniMax成立於2023年1月,是當前國內估值最高的大模型公司之一。今年3月,MiniMax完成阿里參投的新一輪融資,投後估值超過25億美元。此前米哈遊、騰訊均有投資MiniMax。
在MoE尚未成爲行業共識時,MiniMax已經押注MoE路線,今年1月發佈其首款基於MoE架構的abab 6,並在過去3個月潛心研發出性能更強的萬億參數MoE模型abab 6.5,在覈心能力測試中接近GPT-4、Claude 3 Opus、Gemini 1.5 Pro等頂尖大語言模型。
標註星號的是MiniMax調用API測試得到的結果,其餘分數來自對應的技術報告。
abab 6.5和abab 6.5s採用相同的訓練技術、數據,支持200k tokens上下文長度。abab 6.5s更高效,1秒能處理近3萬字的文本。
MiniMax在200k tokens內進行了業界常用的“大海撈針”測試。在891次測試中,abab 6.5均能正確回答。
MiniMax團隊稱找到了越來越多加速實現Scaling Laws的途徑,包括改進模型架構、重構數據pipeline、訓練算法及並行訓練策略優化等。今天發佈的abab 6.5和abab 6.5s是其加速Scaling Laws過程的階段性成果。
abab 6.5系列模型會滾動更新到MiniMax旗下的產品中,包括生產力產品海螺AI和MiniMax開放平台上。