OpenAI的o3推理模型表現遙遙領先,但其高昂的價格可能讓微軟等客戶轉而選擇更便宜的o3 mini。
人工智能公司在努力進入高級模型的下一階段方面困難重重,OpenAI在GPT-4之後遲遲沒有推出GPT-5就是最好的例證。最新發展的主要障礙是缺乏訓練下一代尖端模型的數據。
既然模型在「智能」方面沒有進步,OpenAI便轉而通過「推理」來增強產出,將問題分解成易於處理的小塊,並在每個階段進行自我修正,從而使模型能夠解決問題。但這增加了聊天機器人的輸出時間:簡單的詢問只需幾秒鐘,但複雜的數學和科學問題則需要多達幾分鐘。
「思維鏈」(CoT)一直被認爲是人類使用聊天機器人的最佳實踐,但新的推理模型卻能自己做到這一點。由於推理模型會自我糾正,因此可以減少所謂的「幻覺」,即一本正經地胡說八道。
推理模型始於9月發佈的ChatGPT o1,上週五公佈的o3是其下一代。谷歌也在上週發佈了類似的Gemini 2.0 Flash Thinking。o1模型展示了推理改善輸出的前景,而o3則在這方面又向前邁進了一大步。o3在數學方面的進步尤其令人印象深刻,它在一項高級數學測試中獲得了25%的高分,而OpenAI表示,目前還沒有其他模型的得分超過2%。
高昂的價格可能讓微軟等客戶望而卻步
o3的進步可能對微軟尤爲重要,因爲OpenAI模型是微軟人工智能助手Microsoft 365 Copilot的基礎。對於企業客戶來說,最大限度地減少幻覺至關重要,以免用戶因爲Copilot而犯錯。微軟一直指望GPT-5來解決這個問題,o3可能就是下一個最佳選擇。
除了增加查詢時間外,推理還有另一個缺點:成本更高,這也是人工智能的常見問題。OpenAI的企業客戶將不得不爲推理所需的所有額外底層計算付費。o1文本輸入和輸出的收費已是其前身4o的六倍,而目前我們還不知道o3的費用是多少。
如果用戶提出的問題很難回答,費用就會迅速增加。OpenAI在其o3現場直播中展示了一項高級基準測試,每項任務的成本爲20美元,平均任務完成時間爲1.3分鐘。而且當時使用的是所謂的「高效」版本模型,其中的推理還是有限的。該基準測試組織表示,使用o3的完整推理能力完成同樣的任務平均需要13.8分鐘,使用的計算能力是原來的172倍。儘管該組織沒有提供成本明細,但不難想象,最初的成本可能令人咂舌。
對於想使用o3的微軟來說,成本是個問題。微軟每月向用戶收取30美元的Copilot服務費用,因此即使僅用o3處理部分複雜任務,也會使削弱公司的利潤。從這個角度來說,將在未來幾個月內推出的更小、更便宜、更快的o3 mini可能才是包括微軟在內的OpenAI企業客戶更青睞的產品。雖然o3 mini比o3可能更容易出錯,但與目前支持Copilot的4o模型相比,它仍然是一個重大改進。
微軟還沒有完全採用o1,原因可能就是成本上升,但收益有限。我們還不知道o3 mini的查詢成本是多少,但它的技能已經比4o有了更大的飛躍。考慮到在商業運用中限制人工智能的錯誤也是一個關鍵,因此o3 mini可能會是衆多選擇中的一個甜點。