share_log

Xiaomi MiMo:爲「Reasoning」而生!小米首個推理大模型開源

Xiaomi MiMo ·  04/30 10:47

預訓練增長見瓶頸?如何激發模型推理潛能?

這是「Xiaomi MiMo」誕生之初探索的核心問題!

今天, 小米集團開源首個爲推理(Reasoning)而生的大模型「Xiaomi MiMo」,聯動預訓練到後訓練,全面提升推理能力。

港股市場上,小米概念股全線上揚,截至收盤, $金山雲 (03896.HK)$ 飆升逾14%,$金山軟件 (03888.HK)$ 大漲逾7%,$小米集團-W (01810.HK)$ 漲逾5%。

在數學推理(AIME 24-25)和 代碼競賽(LiveCodeBench v5)公開測評集上,MiMo 僅用 7B 的參數規模,超越了 OpenAI 的閉源推理模型 o1-mini 和阿里 Qwen 更大規模的開源推理模型 QwQ-32B-Preview。

強化學習潛力超越經典開源32B模型

隨着DeepSeek-R1引發業界強化學習(RL)共創潮,DeepSeek-R1-Distill-7B和Qwen2.5-32B已成爲廣泛使用的強化學習起步模型。

在相同RL訓練數據情況下,MiMo-7B 的數學&代碼領域的強化學習潛力顯著領先。

預訓練+後訓練,聯動提升推理能力

MiMo推理能力的提升,由預訓練和後訓練階段中數據和算法等多層面的創新聯合驅動,包括:

  • 預訓練:核心是讓模型見過更多推理模式

    • 數據:着重挖掘富推理語料,併合成約200B tokens推理數據。

    • 訓練:進行了三階段訓練,逐步提升訓練難度,總訓練25T tokens。

  • 後訓練:核心是高效穩定的強化學習算法和框架

    • 算法:提出 Test Difficulty Driven Reward 來緩解困難算法問題中的獎勵稀疏問題,並引入 Easy Data Re-Sampling 策略,以穩定 RL 訓練

    • 框架:設計了Seamless Rollout系統,使得RL訓練加速2.29倍,驗證加速1.96倍。

所有技術細節已經Open,見技術報告:

https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf

MiMo-7B全系列已開源

MiMo-7B 已開源4個模型至HuggingFace:https://huggingface.co/XiaomiMiMo

About Xiaomi MiMo

MiMo 來自全新成立不久的「小米大模型Core團隊」的初步嘗試。

2025年雖看似是大模型逐夢的後半程,但我們堅信AGI的征途仍漫長。

我們將從務實創新出發,勇敢探索未知,用思考突破智能邊界,用創造回應每一次好奇。Ask Mi Anything!

編輯/Somer

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論