追蹤AI最新趨勢

專題 1029條資訊 19847人訂閱

OpenAI直播最後一天放出「王炸」：下一代推理模型o3亮相！

①OpenAI将其最为重要的尖端产品，放在了为期12天的技术分享直播活动的最后一天！②周五，OpenAI发布了下一代的推理模型o3，这是今年早些时候发布的o1推理模型的升级版本；③OpenAI声称，至少在某些条件下，o3模型可以接近实现AGI。

财联社12月21日讯（编辑潇湘）OpenAI将其最为重要的尖端产品，放在了为期12天的技术分享直播活动的最后一天！

周五，OpenAI发布了下一代的推理模型o3，这是今年早些时候发布的o1推理模型的升级版本。更准确地说，o3是一个模型系列——就像o1一样，同时有o3和o3-mini两个版本，后者是一款更小的精简版模型，针对特定任务进行了微调。

OpenAI声称，至少在某些条件下，o3模型可以接近实现AGI。

AGI是“通用人工智能”(artificial general intelligence)的缩写，泛指能完成人类所能完成的任何任务的人工智能。OpenAI对此有着自己的定义：“在最具经济价值的工作上胜过人类的高度自主系统”。

实现AGI将是一个大胆的宣言。对于OpenAI来说，其背后也将具有现实意义。根据OpenAI与其亲密合作伙伴和投资方微软的协议条款，一旦 OpenAI达到AGI，就没有义务再让微软使用其最先进的技术(即那些符合OpenAI AGI定义的技术)。

OpenAI首席执行官山姆··奥尔特曼(Sam Altman)介绍称，OpenAI计划在1月底前正式推出o3 mini，之后推出完整版的o3。该公司期待更强大的大型语言模型可以超越现有模型，吸引新的投资和用户。

OpenAI在一篇博客文章中表示，o1模型已经能够推理复杂的任务，与以前的科学、编码和数学模型相比，它能解决更具挑战性的问题。而OpenAI新推出的o3和o3 mini模型目前正在进行内部安全测试，它们将比之前推出的o1模型更加强大。

OpenAI两年前发布了ChatGPT，拉开了AI军备竞赛的序幕。ChatGPT是一款聊天机器人，最初由版本为GPT-3.5的大型语言模型驱动。OpenAI 随后在2023年推出了GPT-4，并称其更准确、更具创造性。最近，OpenAI又推出了其首个推理模型o1。

该公司发言人表示，OpenAI决定不将下一代新模型命名为o2，“是出于对同名英国电信运营商o2的尊重”。奥尔特曼当天在直播中也调侃称，“按照OpenAI非常非常不擅长命名的伟大传统，它将被命名为o3。”

o3有多强大？

那么，o3具体的表现究竟能有多强大呢？

根据OpenAI的介绍，o3模型在ARC-AGI基准上获得了破纪录的分数。ARC-AGI由Keras之父Fran ç ois Chollet开发，主要是通过图形逻辑推理来测试模型的推理能力。以100%为最高分的ARC-AGI评估结果显示，在低计算场景中，o3得分为75.7%，而在高计算测试中，它达到了87.5%。

这标志着，o3的最佳成绩超过了标志着达到人类水平的门槛85%。作为对比，目前开放的o1模型的得分仅在25%到32%之间。o3的表现几乎是o1的逾三倍。

在其他基准测试中，o3也明显脱颖而出。

在衡量编程能力的Codeforces Elo评分中，o3取得了2727的Elo评分，而o1评分仅为1891。事实上，o3 mini在中等推理时间模式的表现也已足以超越o1。

在OpenAI于8月推出的SWE-bench Verified代码生成评估基准中，o3的准确率为71.7%，比o1高出了22.8个百分点。

o3还在2024年美国AIME数学竞赛中取得了96.7%准确率的高分，只缺了一道题，并在GPQA Diamond(一套研究生水平的生物、物理和化学试题)中取得了87.7%准确率的高分。

尤为值得一提的是，o3在EpochAI的“FrontierMath”基准测试中创造了新纪录，解决了25.2%的问题——在该项测试中没有其他模型能超过2%。

Epoch AI此前联合六十余位全世界的数学家，其中包括教授、IMO命题人、菲尔兹奖获得者，共同推出了全新的数学基准FrontierMath。这些数学问题从奥赛难度到当今的数学前沿，包含了目前数学研究的所有主要分支——从数论和实数分析中的计算密集型问题到代数几何和群论中的抽象问题。

行业竞争与风险

毫无疑问，o3模型在上述测试中的表现，足以令人感到惊艳。无论在软件工程、编写代码，还是竞赛数学、掌握人类博士级别的自然科学知识能力方面，o3都明显高出o1一筹。

OpenAI总裁Greg Brockman表示，“我们最新的推理模型o3是一个突破，在我们最困难的基准上有了阶跃函数的改进。我们现在开始安全测试和红队演练。”

而迈向类人智能的大跨步突破，显然也会引发一些人士对AI安全性的担心。

风险可能确实存在。人工智能安全测试人员发现，与传统的“非推理”模型相比，o1的推理能力便已使其试图欺骗人类用户的比例更高，而在这方面，Meta、Anthropic和谷歌的领先人工智能模型也是如此。

o3试图欺骗用户的比例可能比它的前身更高；一旦未来OpenAI的红队测试结果结果，人们或许便能知道具体情况。奥尔特曼对此也表示，在OpenAI发布新的推理模型之前，他更希望有一个联邦测试框架来指导监控和降低这些模型的风险。

在公开发布o3模型之前，OpenAI也将开放外部研究人员测试o3模型的申请流程，申请将于1月10日截止。

近期，在OpenAI首批推理模型o1发布之后，一些该公司的主要竞争对手也已纷纷推出了推理模型。在本月早些时候，谷歌就发布了其旗舰模型Gemini的新版本，据称其速度是上一代模型的两倍，可以“思考、记忆、计划，甚至代表你采取行动”。Meta首席执行官马克·扎克伯格最近也透露，计划于明年推出Llama 4。

这些动向表明人工智能领域的竞争目前正日益激烈，各方都在努力创造能够解决复杂问题的更为智能的模型。

而OpenAI周五o3模型的最新亮相，也为其为期12天的直播产品发布会画上了圆满句号。在早前的直播中，这家初创公司推出了更昂贵的新 ChatGPT Pro订阅选项(每月200月)，并正式对外推出了AI视频生成模型Sora Turbo以及其他新产品。ChatGPT搜索功能也全面升级，新增地图集成、实时搜索等功能，向所有用户开放。

编辑/lambor

①OpenAI將其最爲重要的尖端產品，放在了爲期12天的技術分享直播活動的最後一天！②週五，OpenAI發佈了下一代的推理模型o3，這是今年早些時候發佈的o1推理模型的升級版本；③OpenAI聲稱，至少在某些條件下，o3模型可以接近實現AGI。

財聯社12月21日訊（編輯瀟湘）OpenAI將其最爲重要的尖端產品，放在了爲期12天的技術分享直播活動的最後一天！

週五，OpenAI發佈了下一代的推理模型o3，這是今年早些時候發佈的o1推理模型的升級版本。更準確地說，o3是一個模型系列——就像o1一樣，同時有o3和o3-mini兩個版本，後者是一款更小的精簡版模型，針對特定任務進行了微調。

OpenAI聲稱，至少在某些條件下，o3模型可以接近實現AGI。

AGI是「通用人工智能」(artificial general intelligence)的縮寫，泛指能完成人類所能完成的任何任務的人工智能。OpenAI對此有着自己的定義：「在最具經濟價值的工作上勝過人類的高度自主系統」。

實現AGI將是一個大膽的宣言。對於OpenAI來說，其背後也將具有現實意義。根據OpenAI與其親密合作夥伴和投資方微軟的協議條款，一旦 OpenAI達到AGI，就沒有義務再讓微軟使用其最先進的技術(即那些符合OpenAI AGI定義的技術)。

OpenAI首席執行官山姆··奧爾特曼(Sam Altman)介紹稱，OpenAI計劃在1月底前正式推出o3 mini，之後推出完整版的o3。該公司期待更強大的大型語言模型可以超越現有模型，吸引新的投資和用戶。

OpenAI在一篇博客文章中表示，o1模型已經能夠推理複雜的任務，與以前的科學、編碼和數學模型相比，它能解決更具挑戰性的問題。而OpenAI新推出的o3和o3 mini模型目前正在進行內部安全測試，它們將比之前推出的o1模型更加強大。

OpenAI兩年前發佈了ChatGPT，拉開了AI軍備競賽的序幕。ChatGPT是一款聊天機器人，最初由版本爲GPT-3.5的大型語言模型驅動。OpenAI 隨後在2023年推出了GPT-4，並稱其更準確、更具創造性。最近，OpenAI又推出了其首個推理模型o1。

該公司發言人表示，OpenAI決定不將下一代新模型命名爲o2，「是出於對同名英國電信運營商o2的尊重」。奧爾特曼當天在直播中也調侃稱，「按照OpenAI非常非常不擅長命名的偉大傳統，它將被命名爲o3。」

o3有多強大？

那麼，o3具體的表現究竟能有多強大呢？

根據OpenAI的介紹，o3模型在ARC-AGI基準上獲得了破紀錄的分數。ARC-AGI由Keras之父Fran ç ois Chollet開發，主要是通過圖形邏輯推理來測試模型的推理能力。以100%爲最高分的ARC-AGI評估結果顯示，在低計算場景中，o3得分爲75.7%，而在高計算測試中，它達到了87.5%。

這標誌着，o3的最佳成績超過了標誌着達到人類水平的門檻85%。作爲對比，目前開放的o1模型的得分僅在25%到32%之間。o3的表現幾乎是o1的逾三倍。

在其他基準測試中，o3也明顯脫穎而出。

在衡量編程能力的Codeforces Elo評分中，o3取得了2727的Elo評分，而o1評分僅爲1891。事實上，o3 mini在中等推理時間模式的表現也已足以超越o1。

在OpenAI於8月推出的SWE-bench Verified代碼生成評估基準中，o3的準確率爲71.7%，比o1高出了22.8個百分點。

o3還在2024年美國AIME數學競賽中取得了96.7%準確率的高分，只缺了一道題，並在GPQA Diamond(一套研究生水平的生物、物理和化學試題)中取得了87.7%準確率的高分。

尤爲值得一提的是，o3在EpochAI的「FrontierMath」基準測試中創造了新紀錄，解決了25.2%的問題——在該項測試中沒有其他模型能超過2%。

Epoch AI此前聯合六十餘位全世界的數學家，其中包括教授、IMO命題人、菲爾茲獎獲得者，共同推出了全新的數學基準FrontierMath。這些數學問題從奧賽難度到當今的數學前沿，包含了目前數學研究的所有主要分支——從數論和實數分析中的計算密集型問題到代數幾何和群論中的抽象問題。

行業競爭與風險

毫無疑問，o3模型在上述測試中的表現，足以令人感到驚豔。無論在軟體工程、編寫代碼，還是競賽數學、掌握人類博士級別的自然科學知識能力方面，o3都明顯高出o1一籌。

OpenAI總裁Greg Brockman表示，「我們最新的推理模型o3是一個突破，在我們最困難的基準上有了階躍函數的改進。我們現在開始安全測試和紅隊演練。」

而邁向類人智能的大跨步突破，顯然也會引發一些人士對AI安全性的擔心。

風險可能確實存在。人工智能安全測試人員發現，與傳統的「非推理」模型相比，o1的推理能力便已使其試圖欺騙人類用戶的比例更高，而在這方面，Meta、Anthropic和谷歌的領先人工智能模型也是如此。

o3試圖欺騙用戶的比例可能比它的前身更高；一旦未來OpenAI的紅隊測試結果結果，人們或許便能知道具體情況。奧爾特曼對此也表示，在OpenAI發佈新的推理模型之前，他更希望有一個聯邦測試框架來指導監控和降低這些模型的風險。

在公開發佈o3模型之前，OpenAI也將開放外部研究人員測試o3模型的申請流程，申請將於1月10日截止。

近期，在OpenAI首批推理模型o1發佈之後，一些該公司的主要競爭對手也已紛紛推出了推理模型。在本月早些時候，谷歌就發佈了其旗艦模型Gemini的新版本，據稱其速度是上一代模型的兩倍，可以「思考、記憶、計劃，甚至代表你採取行動」。Meta首席執行官馬克·扎克伯格最近也透露，計劃於明年推出Llama 4。

這些動向表明人工智能領域的競爭目前正日益激烈，各方都在努力創造能夠解決複雜問題的更爲智能的模型。

而OpenAI週五o3模型的最新亮相，也爲其爲期12天的直播產品發佈會畫上了圓滿句號。在早前的直播中，這家初創公司推出了更昂貴的新 ChatGPT Pro訂閱選項(每月200月)，並正式對外推出了AI視頻生成模型Sora Turbo以及其他新產品。ChatGPT搜索功能也全面升級，新增地圖集成、實時搜索等功能，向所有用戶開放。

編輯/lambor

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。