來源:DeepTech深科技
小語言模型,是《麻省理工科技評論》評選出的 2025 年「十大突破性技術」之一。人們往往認爲大語言模型更擅長做數學題,事實上小語言模型也能做數學題甚至做得更好。
1 月 8 日,由微軟亞洲研究院團隊領銜的一篇論文在 arXiv 上線。論文中,該團隊提出一種新方法並將其命名爲 rStar-Math,它能提升小語言模型的數學推理能力,挑戰了“參數越大模型越好”的常規觀點,爲 GPU 資源和財力有限的機構打開了 AI 研發新思路,或能讓更多業內人士「花小錢辦大事」。
研究中,論文作者團隊通過參數在 1.5B-7B 之間的四個小語言模型以及涵蓋七個數學推理任務的實驗,證明了 rStar-Math 的有效性。
在 rStar-Math 的幫助之下,在無需從高級模型中提煉能力的前提下,讓小語言模型的數學推理能力得以媲美甚至超越 OpenAI o1。
研究人員所使用的數學基準測試,包含 12500 個問題,涵蓋幾何和代數等各個分支以及各個難度級別。
在該測試中,rStar-Math 將 Qwen2.5-Math-7B 模型的準確率從 58.8% 提高到 90.0%,將微軟 Phi3-mini-3.8B 模型的準確率從 41.4% 提高到 86.4%,這分別比 OpenAI o1-preview 的準確率高出 4.5% 和 0.9%。
在美國數學邀請賽(AIME,American Invitational Mathematics Examination)中,rStar-Math 平均能幫模型解決 53.3% 的問題(8/15)。在一衆參加該比賽的高中學生中,rStar-Math 讓模型的答題排名位於前 20%。
需要說明的是:AIME 試卷一共有 15 道題,每題 1 分滿分爲 15 分。對於 AIME 的真人蔘賽者來說,假如其分數在 13 分-15 分之間,那麼該真人蔘賽者幾乎能穩獲參加美國數學奧林匹克大賽的資格,在申請名校時有着極強的競爭力。
值得注意的是,rStar-Math 未能幫助模型解答的幾個問題都是幾何題,解決這些問題需要視覺理解能力,rStar-Math 目前尚不支持這一能力。
rStar-Math:自進化的 System 2 類推理方法
之所以開展這一研究是因爲,讓大語言模型在一次推理中生成完整解決方案時,人們通常使用類似於 System 1 思維的方法,該方法能夠快速生成結果但是錯誤率較高。
System 1 和 System 2 是以色列裔美國心理學家丹尼爾·卡尼曼(Daniel Kahneman)在其著作《快思慢想》中描述的兩種思維模式,代表人腦處理信息和做出決策的不同方式。
而測試時間計算擴展(test-time compute scaling)方法,則展示了向 System 2 思維的範式轉變,該思維範式通過更慢、更深入的思考過程來模擬人類推理。
在這種範式中,大語言模型被作爲一個策略模型(policy model)來生成多個數學推理步驟,然後由另一個大語言模型作爲獎勵模型(reward model)進行評估,隨後選取最有可能正確的步驟和解決方案。通過讓大語言模型不斷重複這個過程,讓其得出最終的答案。
在測試時間計算範式(test-time compute paradigm)中,其中的兩大關鍵分別是:第一,通過訓練一個強大的策略模型來生成潛在的解決步驟;第二,使用一個可靠的獎勵模型來準確地評估解決步驟。但是,這兩者都依賴於高質量的訓練數據。
而當前的高質量數學推理數據處於十分稀缺的狀態,人工方式合成數學數據則依舊面臨一定挑戰。對於策略模型來說,它很難區分推理步驟的對與錯,因此就更加難以消除低質量數據帶來的負面影響。
這就導致在數學推理中即便大語言模型給出了正確答案,也並不能保證整個推理過程的正確性。而不正確的中間步驟,又會明顯降低生成數據的質量。
對於過程獎勵建模(PRM,process reward modeling)來說,它能針對中間步驟提供細粒度反饋。然而,過程獎勵建模的訓練數據更加稀缺,因此要想實現準確的逐步反饋,就需要大量的人工標記工作。
由於上述挑戰的存在,基於蒸餾(distill-based)的數據合成法來訓練策略模型的效果正在減弱,因爲該方法往往無法讓模型超越其教師模型。
與此同時,通過訓練可靠的過程獎勵模型(PRM,process reward model)進行數學推理,仍然是一個未竟的目標。
近年來,AI 創新在很大程度上是通過擴大模型參數推動的,這會耗費大量的計算資源和能源,故引發了人們對於規模化法則(Scaling Law)的質疑。
基於此,該團隊打造了 rStar-Math 這一方法。一言以蔽之:rStar-Math 是一種自進化的 System 2 類推理方法,能夠實現更好的數學推理。
數據集包含 74.7 萬道數學題,讓模型越訓越強
與依賴高級大語言模型進行數據合成的解決方案不同,rStar-Math 使用較小的語言模型和蒙特卡洛樹搜索來建立自我進化過程,從而能夠迭代生成質量更高的訓練數據。
概括來說,rStar-Math 通過蒙特卡洛樹搜索進行「深度思考(deep thinking)」,進而能夠實現數學推理。
蒙特卡洛樹搜索,是一種通過「改進數學題的逐步解題方案」來模仿人類深度思考的方法,它能將複雜的數學問題分解爲更簡單的單步生成任務,從而降低小語言模型完成數學推理的難度。
總的來說,rStar-Math 蘊含以下三方面創新:
首先,rStar-Math 使用一種新的代碼增強思維鏈(CoT,Chain of Thought)數據合成方法。
通過執行廣泛的蒙特卡洛樹搜索部署,能夠使用自注釋的蒙特卡洛樹搜索 Q 值,來生成逐步驗證的推理軌跡(注:Q 值是狀態-動作值函數的一個估計,通常用於決策)。
當模型在解答一道數學題的時候,推理步驟會在蒙特卡洛樹搜索中被分解爲多個步驟。在每一個步驟裏,作爲策略模型的小語言模型都會針對候選節點進行採樣,每個節點都會生成一步思維鏈(one-step CoT)和相應的 Python 代碼。
爲了確保生成質量,rStar-Math 只會保留那些成功執行 Python 代碼的節點,從而減少中間步驟中的錯誤。此外,在大規模的蒙特卡洛樹搜索部署中,它會根據每個中間步驟的貢獻自動爲其分配 Q 值。
對於通向正確答案貢獻更多的步驟,將會被賦予更高的 Q 值,並會被打上質量更高的標籤,這樣一來就能確保小語言模型的推理軌跡均是由正確且高質量的中間步驟組成。
其次,rStar-Math 使用一種將小語言模型作爲過程偏好模型(PPM,process preference model)的新方法,即通過過程偏好模型來實現過程獎勵建模,從而能夠可靠地預測每個數學推理步驟的獎勵標籤。
對於過程偏好模型來說,儘管它使用了大量的蒙特卡洛樹搜索,但 Q 值仍然不夠精確,因此無法針對每個推理步驟進行評分。
不過 Q 值能夠區分正確步驟和錯誤步驟,從而能夠實現可靠的標記,進而能夠避免直接使用 Q 值作爲獎勵標籤,藉此避免傳統方法在逐步獎勵分配(stepwise reward assignment)中的噪聲和不精確性。
再次,rStar-Math 使用一個四輪自我進化方案(four-round self-evolution),能夠從零開始逐步構建前沿策略模型(frontier policy model)和過程偏好模型。
研究人員從公開來源整理了一個包含 74.7 萬道數學題的數據集。在每一輪中,他們都使用最新的策略模型和過程偏好模型來執行蒙特卡洛樹搜索,藉此能夠生成質量越來越高的訓練數據,從而能在下一輪訓練出更強的策略模型和過程偏好模型。
在過程偏好模型的幫助之下,使用蒙特卡洛樹搜索能夠生成更好的推理軌跡,並能提高訓練數據的覆蓋率,故能解答更難甚至競賽級別的數學題。
可用於證明數學定理和代碼推理,代碼和數據將被公開在 GitHub
在應用前景上:
首先,rStar-Math 可被推廣用於更具挑戰性的數學任務比如定理證明。
研究人員表示,rStar-Math 也具備證明數學陳述(prove mathematical statements)的潛力。比如,它已能解答一個涉及費馬小定理的奧賽數學題,並能通過深入的推理過程提供逐步正確的解答。
其次,rStar-Math 可被推廣用於代碼推理和常識推理。值得注意的是,如果要爲一般推理任務合成經逐步驗證的訓練軌跡,則需要一種機制來提供反饋,以便判斷在蒙特卡洛樹搜索結束時,給定軌跡是否拿到了所需要的輸出。
同時,關於 rStar-Math 的實驗結果也表明,小語言模型可以爲高難度數學推理,自動地生成高質量的訓練數據。
根據 Hugging Face 上的一篇帖文,研究人員計劃在 GitHub 上公開代碼和數據。不過,該論文的作者之一 Li Lyna Zhang 在上述貼文的評論區寫道,目前該團隊「仍在進行開源版本的內部審查」。
參考資料:
運營/排版:何晨龍