追蹤AI最新趨勢

專題 1032條資訊 19898人訂閱

一文回顧OpenAI系列發佈會：從工具到AGI，OpenAI的12天進化論

騰訊科技 · 15:35

來源：騰訊科技
作者：郝博陽

前四天重磅推出o1正式版、Sora、Canvas，中間「水」了幾天，最後一天直接甩出王炸——GPT-o3，一舉打破AI發展陷入瓶頸的懷疑。

OpenAI 年末的12天連續Devday更新終於落幕，每天蹲守觀看發佈會都像在開巧克力盲盒，不知道下一個是什麼口味。

在前11天的發佈會中，大部分屬實非常寡淡，只有三個產品還有些精彩的「滋味」。

總結起來，能稱得上重磅的更新包括：o1正式版、Sora、Canvas，它們主要集中在前4天發佈。

其中，o1正式版確實提升很大，Sora則是增加了不少對AI生成視頻進行更改的產品模式，Canvas可以被視爲OpenAI第一次挑戰AI工作臺的產品嚐試。

其次，相對還有些看點的是：和蘋果的深度合作，視頻通話功能，以及o1-mini的強化微調。

o1-mini的強化微調在專業領域潛力很大，微調簡單提升明顯。視頻通話功能則是那個讓人驚豔的「HER」正式上線。和蘋果的深度合作對OpenAI來講也是件大事，更站穩了在AI行業的一哥地位。

另外一些小的產品更新則是讓人覺得——「這也值得開發佈會？」

這些產品包括「Projects」項目功能、o1 圖像輸入和4o高級語音API正式開放、ChatGPT Search 升級和給GPT打電話的功能。它們都是相對比較小，也都和競爭對手沒什麼差異的更新。

到了最後一天，OpenAI終於甩出一個王炸：GPT-o3。一舉打破AI發展陷入瓶頸的懷疑，各項性能直奔AGI而去。

我們根據發佈產品的重要性做了一個表格，梳理這過山車似的十二天發佈日。

下面，我們來稍微詳細地講述一下這些更新的核心點。

重要產品更新

o1完全版（Day1）

從能力上看，o1確實比Preview版本有了比較大的進步。它在國際數學奧林匹克預選賽題目（AIME 2024）、編程能力測試（CodeForces）方面都比o1- preview提升了50%。在處理複雜問題時的重大錯誤率降低了34%。

它還能根據題目的難易程度調節處理時間，這使得用戶等待時間下降超過50%。

更重要的是o1也能支持多模態識別了。這讓它的實用性暴增。醫生可以用它分析醫學影像，工程師能讓它幫忙看圖紙，設計師還能讓它提供創意建議。

但它的價格也相當貴，只有200美金的ChatGPT Pro版訂閱用戶才能享受無限使用，其他普通20美元訂閱用戶僅能享受每日20次使用權限。

作爲第一天登場的產品，o1確實能讓人眼前一亮。

Sora（Day3）

等了10個月後，Sora終於姍姍來遲。

但這不是個模型版本升級，而更像是一個產品打磨。正式版的Sora能生成最長20秒，最高1080p的視頻。生成效果和2月份剛放出的差異不大。

但產品上OpenAI確實下了點心思，故事板是此次發佈中最具創新性的功能，也是Sora最具野心的嘗試。它爲用戶提供了類似專業視頻編輯軟體的時間軸界面。用戶可以在時間軸上添加多個場景卡片。用戶可以將多個提示詞串聯起來，系統會自動處理場景之間的過渡效果。

除此之外，OpenAI還提供了Remix、Blend和Loop三個專業工具。換掉視頻中的元素，或者混合兩個視頻，還能自動補全做無限循環視頻。

產品是挺不錯的，但沒升級過的模型不太給力。在發佈後的評測中，Sora頻頻翻車，運動、交互和物理經常處理得一塌糊塗。還會有憑空出現的人和鬼影。

OpenAI 給的可用量也很小氣，20美元的Plus用戶每月可用50次。只有支付每月200美元的Pro用戶則能享受無限次數的"慢速"生成權限。

Sora總算來了，但是挺讓人失望的。

Canvas（Day4）

一句話形容，Canvas就是OpenAI 打造的AI版Google Docs。

因爲Canvas已經進化成了集智能寫作、代碼協作和AI智能體爲一體的一套完整工作臺。它顯示出了OpenAI超越Chatbot的產品野心。

作爲寫作助手，可以提供編輯意見。

編程功能上，Canvas則通過內置的WebAssembly Python模擬器，創造了一個幾乎無延遲的編程環境。它還展現出了理解代碼意圖的能力。

與近期更新的Cursor和Devin一樣，它上線了定製化AI智能體的能力。它可以完成一系列操作，幫你給朋友們發聖誕信。

Canvas的這三個維度並不是孤立運作的。在實際使用中，它們往往會相互配合，這種無縫的集成使Canvas成了一個多功能AI驅動的創作工作室原型。

但單純從前端展示的角度看，它不如Claude 的 Artifacts。編程的便利性也不如Cursor。因此融合才是它的亮點吧。

一般產品更新

o1-mini強化微調（Day2）

這一產品如果不是實用性較窄，也算是一個重磅發佈。

它改變了過去微調只是通過增加專業數據的邏輯，而是對具有推理能力的模型進行強化學習方向的微調。引導模型在面對複雜問題時有更深刻的思考能力。

現在，僅需「幾十個例子」甚至12個例子，就能夠讓模型有效學會特定領域的推理。根據OpenAI的研究數據，經過強化微調的o1mini模型，其測試通過率比傳統的o1模型高出24%，相比未經過強化微調的o1mini則提升了整整82%。

可惜只能微調o1-mini，適用上也都是那些複雜領域任務，比如醫療、法律或金融和保險。泛用性較差。

高級視頻語音模式（Day6）

這又是個老餅上桌。5月13日，在GPT-4o的演示中，OpenAI的工作人員就能和4o視頻通話，可以看到我們實時的手機屏幕內容，或者根據相機裏的實時畫面和我們聊天或解答問題。

這次就是真正實裝了，沒有什麼升級。但這個功能本身還是非常重要的。

不過因爲這個餅烙的時間有點長，前兩天微軟推出的Vision和谷歌還在烙的Astra也已經跟上了。OpenAI的領先正在一點點被蠶食。

與蘋果的合作（Day5、Day11）

ChatGPT和Apple Intelligence的，更像是個官宣深度結果。蘋果搞不定的只能讓賢OpenAI了。

整合主要包含三個方面：首先是與Siri的協同。當Siri判斷某個任務可能需要ChatGPT的協助時，它可以將任務移交給ChatGPT處理；

其次是寫作工具的增強，用戶現在可以使用ChatGPT從頭開始撰寫文檔，還能進行文檔細化和總結；

第三是iPhone 16的相機控制功能，它能夠通過視覺智能讓用戶更深入地了解拍攝對象。

後面第十一天的Mac整合，則是給了GPT更多Mac工具的調用權限。

我唯一不理解的就是這倆爲什麼不能同一天宣佈，還非分兩天？

能力補齊和小功能更新（Day 7，8，9，10）

剩下的幾個更新最多隻能算是湊數。簡單一句話就能說清。

「Projects」項目功能：它允許用戶創建特定項目，上傳相關文件，設置自定義指令，並將所有與該項目相關的對話集中在一個地方。基本和Claude的沒差別。

ChatGPT搜索升級：能在對話中搜索，支持多模態輸出。Perplexity的Pro模式早支持了。

4o熱點：美國用戶能打電話用4o了！挺尊老愛老的，我看也算是給他們過重陽了。

o1 圖像輸入和4o高級語音API正式開放：我建議這個放在o1發佈當天最後一句話說完。

這幾天真的是有點進入拖時間的循環了。

最終王炸

GPT-o3（Day 12）

如果不是最後一天GPT-o3壓軸登場，我真的覺得OpenAI純粹是爲了攪渾水才連開12天發佈會。

因爲在這期間，Google發佈了Gemini 2 Flash，超快超強；Astra，看起來是真的Agent模樣；Voe2，碾壓Sora ；Gemini 2 Flash Thinking，o1人家也有了。就發了三篇公告幾個視頻，把OpenAI前11天的發佈全都掀了桌。

但在Day 12，OpenAI還是找回了雄風。用o3向業界證明：Scaling Law未死，OpenAI爲王。

o3 是 o1的下一個版本。在9月份o1發佈後僅3個月後，這一新版本在編碼、數學以及 ARC-AGI 基準測試等多個基準上就大幅超過了 OpenAI 此前的 o1 模型。

看幾個數據對比：

Codeforces 評分：2727——相當於全球人類程序員編碼競賽中，排名第 175 位。超過99%的人類程序員。

博士水平的科學問題（GPQA）：87.7%——博士生一般得分70%

最難的前沿數學測試：25.2%——其他模型沒有超過2%，數學天才陶哲軒說該測試「可能難住AI好幾年」

證明是否達到AGI的題目ARC-AGI：87.5%——o1的得分25%

最值得注意的就是這最後一項測試ARC-AGI，它展示的是模型新型任務適應能力。作爲對比，之前ARC-AGI-1從2020年GPT-3的0%僅提升到2024年GPT-4o的5%。這意味着模型不是死記硬背，而是真正在解決問題的能力。

雖然ARC-AGI測試中表現出色，但這並不意味着o3已達到了AGI水平，因爲它仍會在一些非常簡單的任務中失敗，和人類智能有根本性的差別。

但不論如何，這都證明OpenAI選擇強化推理這個範式轉變成功了。人工智能的發展沒有任何放緩的跡象。Scaling Law依然有效。

那些對AI停滯不前的擔憂，被OpenAI年末的聖誕禮物一掃而空。

雖然o3進行一次低算力計算的成本高達20美元，高算力甚至可能高達3000美元，要使用在現階段幾乎是不可能的。但算力會降低，Scaling Law會延續。

3個月，兩個頂尖模型，OpenAI在這12天的最後一天又讓我們感受到了2022年末到2023年初從ChatGPT到GPT4那段時間AI撲面而來的速度。

也許正如之前參與開發了o1的 OpenAI科學家Noam Brown在採訪中說的一樣，「2024年，OpenAI是在實驗，而2025年就是全速前進的一年。」

OpenAI 12天的發佈會，過程波折，完美收工。爲2025年的AI埋下了希望。

本文作者：郝博陽，來源：騰訊科技，原文標題：《一文回顧OpenAI系列發佈會：從工具到AGI，OpenAI的12天進化論》

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

追蹤AI最新趨勢

一文回顾OpenAI系列发布会：从工具到AGI，OpenAI的12天进化论

一文回顧OpenAI系列發佈會：從工具到AGI，OpenAI的12天進化論

重要产品更新

一般产品更新

与苹果的合作（Day5、Day11）

能力补齐和小功能更新（Day 7，8，9，10）

最终王炸

重要產品更新

一般產品更新

與蘋果的合作（Day5、Day11）

能力補齊和小功能更新（Day 7，8，9，10）

最終王炸

追蹤AI最新趨勢

一文回顾OpenAI系列发布会：从工具到AGI，OpenAI的12天进化论

一文回顧OpenAI系列發佈會：從工具到AGI，OpenAI的12天進化論

重要产品更新

一般产品更新

与苹果的合作（Day5、Day11）

能力补齐和小功能更新（Day 7，8，9，10）

最终王炸

重要產品更新

一般產品更新

與蘋果的合作（Day5、Day11）

能力補齊和小功能更新（Day 7，8，9，10）

最終王炸

風險及免責聲明

聲明