追蹤AI最新趨勢

專題 959條資訊 16862人訂閱

在對AI「審美疲勞」中，奇點悄悄來了......

華爾街見聞 · 10/12 15:55

OpenAI的o1模型通过强化学习，拥有“自我进化”能力后，正将AI发展加速推向“奇点”。Altman认为AI新范式进步曲线将更陡峭，拥有进化能力的大模型将更快速地实现向下一级的跃迁。

自生成式AI爆火已有两年，而近期进展似乎不尽人意，大模型鲜有突破性创新，应用层面也未出现杀手级应用，资本市场对“泡沫论”和估值过高争议不断......人们仿佛对AI已经“祛魅”，AI发展真的变慢了吗？

在质疑和期待声中，周五“AI领头羊”OpenAI发布了一个名为MLE-bench的基准测试，专门用来测试AI Agent的机器学习工程能力，建立起一个衡量大模型机器学习能力的行业标准。

而这一标准的建立正是在o1亮相之后，上月OpenAI甩出一记重大更新，推理能力超越人类博士水平的o1系列模型面世，实现大模型在推理能力上的一次飞跃。

测试结果显示，在MLE-bench的基准测试下，o1-preview在16.9%的竞赛中获得了奖牌，几乎是第二名（GPT-4o，8.7%）的两倍，是Meta Llama3.1 405b的5倍，也是claude 3.5的2倍。

值得一提的是，o1模型除了推理能力跃升，最关键突破是开启新Scaling Law，同时形成所谓的“数据飞轮”，拥有可以进行“自我进化”的能力。

英伟达CEO黄仁勋此前表示，AI正在设计下一代AI，进展速度达到了摩尔定律的平方。这意味着在接下来的一到两年内，将会看到惊人的、意想不到的进步。OpenAI创始人Altman直言AI新范式进步曲线变得更陡峭，拥有进化能力后可能更快速地实现向下一级的跃迁。

“自我进化”能力预示着AI发展“奇点”正加速到来，正如有分析指出，OpenAI现在对奇点的理解不仅仅是一种理论，而是作为一个非常真实的、可能成为现实的现象，尤其是通过AI智能体（Agents）来实现。

针对“AI发展是否真的变慢了”这一问题，从以上行业最新进展和科技大佬观点来看，市场反而低估了AI发展斜率。

自我进化，迈向奇点

OpenAI在最新的论文中指出：

如果人工智能智能体能够自主进行机器学习研究，它们可能会带来许多积极的影响，例如加速医疗保健、气候科学等领域的科学进步，加速模型的安全和对齐研究，并通过开发新产品促进经济增长。智能体进行高质量研究的能力可能标志着经济中的一个转折。

对此，有分析理解称：

OpenAI现在不再将奇点理论仅仅视为一种理论，而是作为一个非常真实的、可能成为现实的现象，尤其是通过智能体（agents）来实现。

此外，OpenAI对o1的命名也体现了这一点，OpenAI将计数器重置为1，标志着开启一段AI新纪元。而o1的最大突破不仅在于推理能力的提升，更在于拥有“自我学习”的能力，此外开启新的Scaling Law。

最关键的突破是，o1拥有“自我进化”的能力，向通往AGI的路上迈出一大步。

前文提及o1在推理过程中会生成中间步骤，而中间步骤包含大量高质量的训练数据，这些数据可以被反复利用进一步提升模型性能，形成不断“自我强化”的良性循环。

正如人类的科学发展进程，通过提取已有的知识，挖掘出新的知识，从而不断地产生新的知识。

英伟达高级科学家Jim Fan称赞称，o1未来发展会像飞轮快速运转起来，就像AlphaGo自我博弈以提升棋艺：

Strawberry很容易形成“数据飞轮”，如果答案是正确的，整个搜索轨迹就成为一个小型的训练样本数据集，其中包含正面和负面的反馈。
这反过来会改进未来版本GPT的推理核心，就像AlphaGo的价值网络——用来评估每个棋盘位置的质量，随着MCTS（蒙特卡洛树搜索）生成越来越精细的训练数据而改进一样。

o1模型还代表了大模型领域新范式的突破——开启推理阶段新Scaling Law。

AI领域的Scaling Law（缩放定律）规则，一般是指随着参数量、数据量和算力的增加，大模型的性能能够不断提高。然而，毕竟数据是有限的，AI出现越训练越傻的迹象，Pre-Training（预训练）带来的scaling up边际收益开始递减。

o1在很大程度上突破这一瓶颈，通过post training(后训练)的方式，增加推理过程和思考时间，同样明显提升了模型性能。

相对于传统的预训练阶段scaling Law，o1开启推理阶段新Scaling Law，即模型推理时间越长，推理效果会更好。随着o1开启大模型领域范式创新，会引领AI领域研究重点的转向，行业从“卷参数”迈入“卷推理时间”的阶段，MLE-bench的基准测试正体现了这一衡量标准的转变。

随着大模型推理性能飞跃，芯片算力能力也将相应地升级，黄仁勋在9月的T-Mobile大会上，直接预告算力提速50倍，把o1模型的响应时间从几分钟缩短到几秒：

最近，Sam提出了一个观点，这些AI的推理能力将变得更加聪明，但这需要更多的算力。目前，在ChatGPT中的每个提示都是一个路径，未来将在内部有数百个路径。它将进行推理，进行强化学习，试图为你创造更好的答案。
这就是为什么在我们的Blackwell架构将推理性能提高了50倍。通过将推理性能提高50倍，那个现在可能需要几分钟来回答特定提示的推理模型，可以在几秒钟内回应。因此这将是一个全新的世界，我对此感到兴奋。

加速式地向前发展意味着“奇点正在到来”，正如Altman在此前发布了一篇长文中称，未来在医疗领域，超级智能可以帮助医生更准确地诊断疾病，制定个性化的治疗方案；在交通领域，可以优化交通流量减少拥堵和事故的发生；在教育领域，为每一位孩子配备AI学习伙伴，让教育资源公平化。

市场可能低估了AI发展斜率

对于市场对AI的担忧，业内大佬反驳称，AI叙事节奏正在加速推进。

在Salesforce举办的一场活动上，黄仁勋表示：

科技走入正反馈循环，AI正在设计下一代AI，进展速度达到了摩尔定律的平方。这意味着在接下来的一到两年内，我们将会看到惊人的、意想不到的进步。

在上月的T-Mobile大会上，Altman直言AI新范式进步曲线变得更陡峭，将更快速地实现向下一级的跃迁；

新范式时刻曲线时间上变得更陡峭，模型无法解决的问题几个月后就能解决；我认为现在的新推理模型类似于我们在GPT-2时期，你会在未来几年内看到它发展到与GPT-4 相当的水平。在接下来的几个月内，你也会看到显著的进步，我们降从o1-preview升级到o1正式版。o1交互方式也将发生变化，不再只是聊天。

从OpenAI五级AGI路线图来看，我们正处于AGI level 2，Altman表示从L1到L2花了一段时间，但我认为L2最令人兴奋的事情之一是它能够相对快速地实现L3，预计这种技术最终将带来的智能体将非常强大。

L1：聊天机器人（ChatBot），具有对话能力的AI；
L2：我们刚刚达到的推理者（Reasoner），像人类一样能够解决问题的AI；
L3：智能体（Agent），不仅能思考，还可以采取行动的AI系统；
L4：创新（Innovator），能够协助发明创造的AI；
L5：组织者（Organization），可以完成组织工作的AI；

微软CTO斯科特在高盛大会上提到，AI革命比互联网革命更快：

我不认为我们正在经历收益递减，我们正在取得进步，人工智能的崛起仍处于早期阶段。我鼓励人们不要被炒作冲昏头脑，但人工智能正在变得越来越强大。我们所有在最前沿工作的人都可以看到，还有很多力量和能力未被释放。
虽然人工智能革命和互联网，以及智能手机的出现等以前的技术突破有相似之处，但这一次不同，至少在建设方面，所有这一切可能比我们在以前的革命中看到的发生得更快。

o1模型“自我进化”的原理是什么？

具体来看，o1模型之所以表现如此惊艳，背后在于AI学会通过强化学习（RL）利用思维链（CoT）技术来处理问题。

所谓的思维链技术是指模仿人类思考过程，相比之前大模型的快速响应，o1模型在回答问题前会花时间进行深度思考，内部生成一个很长的思维链，逐步推理并完善每个步骤。

有分析将其类比为《思考，快与慢》里的系统二：

系统一：无意识地快思考，依赖于直觉和经验，快速做出反应，例如刷牙、洗脸等动作。
系统二：深思熟虑，带有逻辑性地慢思考，例如解决数学题或计划长期目标等复杂的问题。

o1模型像是系统二，在回答问题前会进行推理，生成一系列思维链，而之前的大模型更像是系统一。

通过思维链式地拆解问题，在解答复杂问题过程中，模型可以不断验证、纠错，尝试新策略，从而显著提升模型的推理能力。

o1模型另一个核心特征是强化学习，可以进行自主探索、连续决策。正是通过强化学习训练，大模型学会完善自己的思考过程，生成思维链。

强化学习在大模型中的应用，是指智能体学习在环境中采取行动，并根据行动结果获得反馈（试错和奖励机制），从而不断优化策略。而之前的大模型预训练采用的是自监督学习范式，通常是设计一种预测任务，利用数据本身的信息训练模型。

简而言之，以前的大模型是学习数据，o1更像是在学习思维。

通过强化学习和思维链的方式，o1不仅在量化的推理指标上有了显著提升，在定性的推理可解释性上也有了明显改善。

不过，o1模型只是在特定任务上取得了突破，在文本生成等偏文科向领域并不具备优势，而且o1只是将人的思维过程展现出来，尚不具备真正的人类思考和思维能力。

编辑/ping

OpenAI的o1模型通過強化學習，擁有「自我進化」能力後，正將AI發展加速推向「奇點」。Altman認爲AI新範式進步曲線將更陡峭，擁有進化能力的大模型將更快速地實現向下一級的躍遷。

自生成式AI爆火已有兩年，而近期進展似乎不盡人意，大模型鮮有突破性創新，應用層面也未出現殺手級應用，資本市場對「泡沫論」和估值過高爭議不斷......人們彷彿對AI已經「祛魅」，AI發展真的變慢了嗎？

在質疑和期待聲中，週五「AI領頭羊」OpenAI發佈了一個名爲MLE-bench的基準測試，專門用來測試AI Agent的機器學習工程能力，建立起一個衡量大模型機器學習能力的行業標準。

而這一標準的建立正是在o1亮相之後，上月OpenAI甩出一記重大更新，推理能力超越人類博士水平的o1系列模型面世，實現大模型在推理能力上的一次飛躍。

測試結果顯示，在MLE-bench的基準測試下，o1-preview在16.9%的競賽中獲得了獎牌，幾乎是第二名（GPT-4o，8.7%）的兩倍，是Meta Llama3.1 405b的5倍，也是claude 3.5的2倍。

值得一提的是，o1模型除了推理能力躍升，最關鍵突破是開啓新Scaling Law，同時形成所謂的「數據飛輪」，擁有可以進行「自我進化」的能力。

英偉達CEO黃仁勳此前表示，AI正在設計下一代AI，進展速度達到了摩爾定律的平方。這意味着在接下來的一到兩年內，將會看到驚人的、意想不到的進步。OpenAI創始人Altman直言AI新範式進步曲線變得更陡峭，擁有進化能力後可能更快速地實現向下一級的躍遷。

「自我進化」能力預示着AI發展「奇點」正加速到來，正如有分析指出，OpenAI現在對奇點的理解不僅僅是一種理論，而是作爲一個非常真實的、可能成爲現實的現象，尤其是通過AI智能體（Agents）來實現。

針對「AI發展是否真的變慢了」這一問題，從以上行業最新進展和科技大佬觀點來看，市場反而低估了AI發展斜率。

自我進化，邁向奇點

OpenAI在最新的論文中指出：

如果人工智能智能體能夠自主進行機器學習研究，它們可能會帶來許多積極的影響，例如加速醫療保健、氣候科學等領域的科學進步，加速模型的安全和對齊研究，並通過開發新產品促進經濟增長。智能體進行高質量研究的能力可能標誌着經濟中的一個轉折。

對此，有分析理解稱：

OpenAI現在不再將奇點理論僅僅視爲一種理論，而是作爲一個非常真實的、可能成爲現實的現象，尤其是通過智能體（agents）來實現。

此外，OpenAI對o1的命名也體現了這一點，OpenAI將計數器重置爲1，標誌着開啓一段AI新紀元。而o1的最大突破不僅在於推理能力的提升，更在於擁有「自我學習」的能力，此外開啓新的Scaling Law。

最關鍵的突破是，o1擁有「自我進化」的能力，向通往AGI的路上邁出一大步。

前文提及o1在推理過程中會生成中間步驟，而中間步驟包含大量高質量的訓練數據，這些數據可以被反覆利用進一步提升模型性能，形成不斷「自我強化」的良性循環。

正如人類的科學發展進程，通過提取已有的知識，挖掘出新的知識，從而不斷地產生新的知識。

英偉達高級科學家Jim Fan稱讚稱，o1未來發展會像飛輪快速運轉起來，就像AlphaGo自我博弈以提升棋藝：

Strawberry很容易形成「數據飛輪」，如果答案是正確的，整個搜索軌跡就成爲一個小型的訓練樣本數據集，其中包含正面和負面的反饋。
這反過來會改進未來版本GPT的推理核心，就像AlphaGo的價值網絡——用來評估每個棋盤位置的質量，隨着MCTS（蒙特卡洛樹搜索）生成越來越精細的訓練數據而改進一樣。

o1模型還代表了大模型領域新範式的突破——開啓推理階段新Scaling Law。

AI領域的Scaling Law（縮放定律）規則，一般是指隨着參數量、數據量和算力的增加，大模型的性能能夠不斷提高。然而，畢竟數據是有限的，AI出現越訓練越傻的跡象，Pre-Training（預訓練）帶來的scaling up邊際收益開始遞減。

o1在很大程度上突破這一瓶頸，通過post training(後訓練)的方式，增加推理過程和思考時間，同樣明顯提升了模型性能。

相對於傳統的預訓練階段scaling Law，o1開啓推理階段新Scaling Law，即模型推理時間越長，推理效果會更好。隨着o1開啓大模型領域範式創新，會引領AI領域研究重點的轉向，行業從「卷參數」邁入「卷推理時間」的階段，MLE-bench的基準測試正體現了這一衡量標準的轉變。

隨着大模型推理性能飛躍，芯片算力能力也將相應地升級，黃仁勳在9月的T-Mobile大會上，直接預告算力提速50倍，把o1模型的響應時間從幾分鐘縮短到幾秒：

最近，Sam提出了一個觀點，這些AI的推理能力將變得更加聰明，但這需要更多的算力。目前，在ChatGPT中的每個提示都是一個路徑，未來將在內部有數百個路徑。它將進行推理，進行強化學習，試圖爲你創造更好的答案。
這就是爲什麼在我們的Blackwell架構將推理性能提高了50倍。通過將推理性能提高50倍，那個現在可能需要幾分鐘來回答特定提示的推理模型，可以在幾秒鐘內回應。因此這將是一個全新的世界，我對此感到興奮。

加速式地向前發展意味着「奇點正在到來」，正如Altman在此前發佈了一篇長文中稱，未來在醫療領域，超級智能可以幫助醫生更準確地診斷疾病，制定個性化的治療方案；在交通領域，可以優化交通流量減少擁堵和事故的發生；在教育領域，爲每一位孩子配備AI學習夥伴，讓教育資源公平化。

市場可能低估了AI發展斜率

對於市場對AI的擔憂，業內大佬反駁稱，AI敘事節奏正在加速推進。

在Salesforce舉辦的一場活動上，黃仁勳表示：

科技走入正反饋循環，AI正在設計下一代AI，進展速度達到了摩爾定律的平方。這意味着在接下來的一到兩年內，我們將會看到驚人的、意想不到的進步。

在上月的T-Mobile大會上，Altman直言AI新範式進步曲線變得更陡峭，將更快速地實現向下一級的躍遷；

新範式時刻曲線時間上變得更陡峭，模型無法解決的問題幾個月後就能解決；我認爲現在的新推理模型類似於我們在GPT-2時期，你會在未來幾年內看到它發展到與GPT-4 相當的水平。在接下來的幾個月內，你也會看到顯著的進步，我們降從o1-preview升級到o1正式版。o1交互方式也將發生變化，不再只是聊天。

從OpenAI五級AGI路線圖來看，我們正處於AGI level 2，Altman表示從L1到L2花了一段時間，但我認爲L2最令人興奮的事情之一是它能夠相對快速地實現L3，預計這種技術最終將帶來的智能體將非常強大。

L1：聊天機器人（ChatBot），具有對話能力的AI；
L2：我們剛剛達到的推理者（Reasoner），像人類一樣能夠解決問題的AI；
L3：智能體（Agent），不僅能思考，還可以採取行動的AI系統；
L4：創新（Innovator），能夠協助發明創造的AI；
L5：組織者（Organization），可以完成組織工作的AI；

微軟CTO斯科特在高盛大會上提到，AI革命比互聯網革命更快：

我不認爲我們正在經歷收益遞減，我們正在取得進步，人工智能的崛起仍處於早期階段。我鼓勵人們不要被炒作衝昏頭腦，但人工智能正在變得越來越強大。我們所有在最前沿工作的人都可以看到，還有很多力量和能力未被釋放。
雖然人工智能革命和互聯網，以及智能手機的出現等以前的技術突破有相似之處，但這一次不同，至少在建設方面，所有這一切可能比我們在以前的革命中看到的發生得更快。

o1模型「自我進化」的原理是什麼？

具體來看，o1模型之所以表現如此驚豔，背後在於AI學會通過強化學習（RL）利用思維鏈（CoT）技術來處理問題。

所謂的思維鏈技術是指模仿人類思考過程，相比之前大模型的快速響應，o1模型在回答問題前會花時間進行深度思考，內部生成一個很長的思維鏈，逐步推理並完善每個步驟。

有分析將其類比爲《思考，快與慢》裏的系統二：

系統一：無意識地快思考，依賴於直覺和經驗，快速做出反應，例如刷牙、洗臉等動作。
系統二：深思熟慮，帶有邏輯性地慢思考，例如解決數學題或計劃長期目標等複雜的問題。

o1模型像是系統二，在回答問題前會進行推理，生成一系列思維鏈，而之前的大模型更像是系統一。

通過思維鏈式地拆解問題，在解答覆雜問題過程中，模型可以不斷驗證、糾錯，嘗試新策略，從而顯著提升模型的推理能力。

o1模型另一個核心特徵是強化學習，可以進行自主探索、連續決策。正是通過強化學習訓練，大模型學會完善自己的思考過程，生成思維鏈。

強化學習在大模型中的應用，是指智能體學習在環境中採取行動，並根據行動結果獲得反饋（試錯和獎勵機制），從而不斷優化策略。而之前的大模型預訓練採用的是自監督學習範式，通常是設計一種預測任務，利用數據本身的信息訓練模型。

簡而言之，以前的大模型是學習數據，o1更像是在學習思維。

通過強化學習和思維鏈的方式，o1不僅在量化的推理指標上有了顯著提升，在定性的推理可解釋性上也有了明顯改善。

不過，o1模型只是在特定任務上取得了突破，在文本生成等偏文科向領域並不具備優勢，而且o1只是將人的思維過程展現出來，尚不具備真正的人類思考和思維能力。

編輯/ping

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。