share_log

AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场

AI新時代揭幕!會「思考解題邏輯」的OpenAI推理大模型登場

財聯社 ·  09/13 07:30

①OpenAI o1模型(「草莓」大模型)標誌着人工智能在複雜推理任務領域的嶄新水平;②通過改變AI模型的行爲方式,新模型能夠有效提高回答質量,同時避免一些機制性缺陷;③OpenAI首發推出o1-預覽版和o1 mini兩款模型。

財聯社9月13日訊(編輯 史正丞)北京時間週五凌晨1時許,AI時代迎來嶄新的起點——能夠進行通用複雜推理的大模型終於走到臺前。

OpenAI在官網發佈公告稱,開始向全體訂閱用戶開始推送OpenAI o1預覽模型——也就是此前被廣泛期待的「草莓」大模型。OpenAI表示,對於複雜推理任務而言,新模型代表着人工智能能力的嶄新水平,因此值得將計數重置爲1,給它一個有別於「GPT-4」系列的全新名號。

推理大模型的特點,就是AI會在回答之前花更多時間進行思考,就像人類思考解決問題的過程一樣。以往的大模型,背後的邏輯是通過學習大量數據集中的模式,來預測單詞生成的序列,嚴格來說並不是真正理解提問。

(明顯能感知到的「思考」過程,來源:OpenAI)
(明顯能感知到的「思考」過程,來源:OpenAI)

認知將躍升至「理科博士生水準」

OpenAI曾解釋過,2023年發佈的GPT-4類似於高中生的智能水平,而GPT-5則是完成AI從「高中生躍升至博士」的成長。這個o1模型就是其中關鍵的一步。

相較於GPT-4o等現有的大模型,OpenAI o1能夠解決更加困難的推理問題,同時改善過往模型中存在的機制性缺陷。

舉例而言,這個新模型能夠數清楚strawberry裏到底有幾個「r」

同時AI在解答編程問題時也會更有條理,在着手寫代碼前,把整個回答的流程全部思考完一遍,再動手輸出代碼。

例如在預設條件的寫詩任務(例如第二句的最後一個單詞需要以i收尾)中,「拿起筆就寫」的GPT-4o的確給出了回答,但往往只會滿足了一部分條件,同時不會自我糾正。這意味着AI必須在第一次生成時就能碰上正確的答案,否則就一定會出錯。但在o1模型中,AI會不斷試錯並打磨答案,從而顯著提高生成結果的準確率和質量。

有趣的是,點開AI思考的過程,還會出現AI表示「我在思考這個事情這麼做行不行」、「啊時間不夠了得儘快給出答案」等。OpenAI確認,這裏展示的並不是原始的思維鏈,而是「模型生成的摘要」,公司也坦率承認這裏有保持「競爭優勢」的因素。

OpenAI的研究負責人Jerry Tworek透露,o1模型背後的訓練與之前的產品有着根本性的區別。之前的GPT模型旨在模仿其訓練數據中的模式,而o1的訓練旨在讓其獨立解決問題。在強化學習的過程中,使用獎勵和懲罰機制來「教育」AI使用「思維鏈」來處理問題,就像人類習得拆解、分析問題的方式一樣。

根據測試,o1模型在國際數學奧林匹克的資格考試中,能夠拿到83%的分數,而GPT-4o只能正確解決13%的問題。而在編程能力比賽Codeforces中,o1模型拿到89%百分位的成績,而GPT-4o只有11%。

(圖上顯示,o1模型預覽版的能力會比正式版低一截)

OpenAI表示,根據測試,在下一個更新的版本中,AI在物理、化學和生物學的挑戰性基準測試中,表現能夠與博士生水平類似

該講講缺點和侷限性了

不難理解,會自己思考問題的AI模型,對於程序員、創意工作者,以及幾乎所有的理科相關專業工作者而言是有益的升級,但這個新模型也有侷限性。

首先,OpenAI o1模型(至少目前)還不是多模態大模型,同時在回答事實性問題時也不如其他模型。所以在圖像互動、常識問答、互聯網搜索方面,GPT-4o依然是更勝一籌的選擇。當然,OpenAI明確表示未來會給這個模型增加聯網、文件和圖像上傳等功能。

另一個問題則是貴,而且是非常貴。o1-預覽模型的定價是每百萬個輸入tokens 15美元,每百萬個輸出tokens 則要60美元,分別是GPT-4o的3倍和4倍。一百萬tokens大致相當於75萬個英文單詞。

除了OpenAI o1-預覽版外,OpenAI也同步推出了o1-mini模型。後者是一個更快、更便宜的模型,定價也會便宜80%,適用於需要推理但不需要廣泛世界知識的場景。

而且從OpenAI「摳摳索索」的舉動來看,這個推理模型恐怕非常消耗算力。公司宣佈,從9月12日起,ChatGPT訂閱用戶可以訪問這兩個新模型,但目前o1-preview每週消息數量限制爲30條,o1-mini則爲50條。

企業版ChatGPT和教育用戶可以從下週開始訪問這兩個模型。API使用等級達到5級的開發者可以立即開始使用這兩個模型,每分鐘的速率限制爲20次。OpenAI未來準備向免費用戶提供o1-mini模型,但目前還沒有時間表。

編輯/Somer

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論