追蹤AI最新趨勢

專題 1061條資訊 20834人訂閱

「世界模型」——AI下一個「必爭之地」，英偉達、谷歌雙雙下場

来源：硬AI
作者：赵颖

“世界模型”被业内吹捧为是AI领域的下一个关键突破，英伟达，谷歌以及不少初创企业都在追逐世界模型，英伟达推出COSMOS世界模型，谷歌旗下DeepMind组建世界模型研究团队，AI教母”李飞飞的World Labs筹集2.3亿美元构建“大世界模型”......

黄仁勋身着新皮衣亮相2025 CES，除了推出炸裂的GPU RTX 5090之外，还宣布入局AI领域当下最关键的方向一“世界模型”。

1月7日，黄仁勋在2025年拉斯维加斯消费电子展（CES）上宣布，推出阿童木世界模型（Cosmos World Foundation Models，简称Cosmos WFMs），该模型专为理解物理世界打造，可预测和生成“物理感知”的视频。

具体来看，Cosmos WFMs分为三类：

（1）Nano：适用于低延迟和实时应用；（2）Super：高性能基线模型；（3）最高质量和保真度输出。

这些模型的参数规模从40亿到140亿不等，Nano最小，Ultra最大。英伟达还发布了上采样模型、针对增强现实优化的视频解码器以及确保负责任使用的guardrail模型。

实际上，除了$英伟达 (NVDA.US)$，$谷歌-A (GOOGL.US)$以及不少初创企业也在追逐世界模型，谷歌旗下DeepMind组建世界模型研究团队，聘请Sora核心人员Tim Brooks掌舵。此外，“AI教母”李飞飞的World Labs、初创公司Decart、 Odyssey也都涉足其中。

不仅引得一众科技企业逐鹿，“世界模型”还被业内吹捧为是AI领域的下一个关键突破，那么“世界模型”到底指的是什么？它的重要之处在于哪里？

英伟达入局“世界模型”，一众科技巨头“逐鹿”

据英伟达介绍称，Cosmos WFMs经过了9000万亿个token的训练，数据来自2000万小时的真实世界人类互动、环境、工业、机器人和驾驶数据。模型可针对特定应用进行微调，通过英伟达API和NGC目录、GitHub和AI开发平台Hugging Face可获得。

多家企业已开始试用Cosmos，英伟达表示，Waabi、Wayve、Fortellix和Uber等多家已经承诺在各种用例中试用CosmosWFM，从视频搜索和策划到为自动驾驶汽车构建AI模型。

不过，由于英伟达拒绝透露训练数据的具体来源，这引发了版权争议，分析称这正是英伟达将这些模型称为“开放”而不是“开源”的原因。

与此同时，谷歌DeepMind也在积极布局世界模型领域。根据TechCrunch报道，DeepMind正在组建一支专门的世界模型研究团队，以扩大其在该领域的领先地位。该团队将由前OpenAI研究员Tim Brooks领导，他于去年10月加入DeepMind。

DeepMind上个月发布了Genie，该模型可模拟虚拟世界以及逼真的动画和物理效果，并支持所有这些元素之间的交互。例如用户可以使用Genie创建的各种示例世界，包括航海模拟、赛博朋克西部片等，还可以使用文本、图像或两者的组合来提示Genie。

除了英伟达、谷歌等科技巨头，还有不少耀眼的初创玩家。“AI教母”李飞飞的World Labs已筹集2.3亿美元用于构建“大世界模型”，以及Decart、 Odyssey等公司也入局其中。此外，OpenAI此前发布的Sora模型也可视为一种“世界模型"，它能够模拟如画家在画布上留下笔触等行为，以及渲染类似Minecraft的UI和游戏世界。

AI领域的下一个关键突破：世界模型

什么是AI“世界模型”？为什么它们很重要？

具体来看，世界模型是指通过大量图像、音频、视频和文本数据训练，创建对世界运作方式的内部表征，并能推理行为的后果。这使它们能更好地理解和模拟现实世界的规律。

世界模型的概念源自人类大脑形成的心智模型，我们的大脑能够将感官获取的抽象信息整合成对周围世界的具体理解，从而形成"模型"，这些模型帮助我们预测和感知世界。

世界模型的特点是试图超越数据，模拟人类的潜意识推理，例如，棒球击球手能在毫秒内决定如何挥棒，是因为他们能本能地预测球的轨迹。这种潜意识推理能力被认为是实现人类级智能的先决条件之一。

“世界模型”的意义在于可以实现复杂推理和规划，还将生成式视频技术的突破：

1. 生成式视频技术的突破：世界模型在生成式视频领域展现出巨大潜力。与传统的生成模型相比，具备基本物理规律理解的世界模型能更准确地模拟物体的运动。例如，它不仅能预测篮球会弹跳，还能理解为什么会弹跳。Snap前AI负责人、Higgsfield公司CEO Alex Mashrabov表示，有了强大的世界模型，创作者就不需要为每个物体定义预期的运动方式，模型本身就能理解这些。
2. 复杂预测和规划：Meta首席AI科学家Yann LeCun认为，世界模型未来可能用于数字和物理领域的复杂预测和规划。例如，给定一个脏乱的房间（初始状态）和一个整洁的房间（目标状态），世界模型可以推理出一系列清洁行动，而不仅仅是根据观察到的模式进行操作。

拥有这些能力后，“世界模型”可广泛赋能影视、游戏，自动驾驶以及机器人等行业。

World Labs联合创始人Justin Johnson预测，未来的世界模型可能能够按需生成用于游戏、虚拟摄影等用途的3D世界，大大降低开发成本和时间。世界模型将不仅能获得图像或视频片段，还能得到一个完全模拟的、生动的、可交互的3D世界。

代表好莱坞动画师和漫画家的工会动画协会 (Animation Guild) 一项2024年研究估计，人工智能有可能在未来两年内颠覆美国10多万个电影、电视和动画工作岗位。

世界模型还有望推动机器人技术进步，通过增强机器人对周围环境和自身的感知能力，帮助它们更好地理解所处情境并推理可能的解决方案。

尽管前景诱人，世界模型的发展仍面临诸多技术挑战：

巨大的计算需求：训练和运行"世界模型"需要比当前生成模型更多的计算能力；幻觉和偏见问题：像所有AI模型一样，"世界模型"也会产生幻觉并内化训练数据中的偏见。
训练数据限制：缺乏足够广泛而又具体的训练数据可能会加剧上述问题。复杂行为模拟：目前的模型难以准确捕捉世界居民（如人类和动物）的行为。

过去一年AI技术在多元方向持续突破，世界模型被视为下一个重大突破。虽然距离成熟的“世界模型”还有数年时间距离，但这一技术已展现出巨大潜力。如果所有主要障碍都能克服，“世界模型”有望在虚拟世界生成、机器人技术和AI决策等领域带来重大突破，为人工智能与现实世界的融合开辟新的途径。

想进场但择时难？「月供专区」功能帮到你！打开富途牛牛>市场>美股>点击「月供专区」>「创建月供」>设置月供计划，定时定额入市，把握投资机会！

编辑/ping

來源：硬AI
作者：趙穎

「世界模型」被業內吹捧爲是AI領域的下一個關鍵突破，英偉達，谷歌以及不少初創企業都在追逐世界模型，英偉達推出COSMOS世界模型，谷歌旗下DeepMind組建世界模型研究團隊，AI教母”李飛飛的World Labs籌集2.3億美元構建「大世界模型」......

黃仁勳身着新皮衣亮相2025 CES，除了推出炸裂的GPU RTX 5090之外，還宣佈入局AI領域當下最關鍵的方向一「世界模型」。

1月7日，黃仁勳在2025年拉斯維加斯消費電子展（CES）上宣佈，推出阿童木世界模型（Cosmos World Foundation Models，簡稱Cosmos WFMs），該模型專爲理解物理世界打造，可預測和生成「物理感知」的視頻。

具體來看，Cosmos WFMs分爲三類：

（1）Nano：適用於低延遲和實時應用；（2）Super：高性能基線模型；（3）最高質量和保真度輸出。

這些模型的參數規模從40億到140億不等，Nano最小，Ultra最大。英偉達還發佈了上採樣模型、針對增強現實優化的視頻解碼器以及確保負責任使用的guardrail模型。

實際上，除了$英偉達 (NVDA.US)$，$谷歌-A (GOOGL.US)$以及不少初創企業也在追逐世界模型，谷歌旗下DeepMind組建世界模型研究團隊，聘請Sora核心人員TIM Brooks掌舵。此外，「AI教母」李飛飛的World Labs、初創公司Decart、 Odyssey也都涉足其中。

不僅引得一衆科技企業逐鹿，「世界模型」還被業內吹捧爲是AI領域的下一個關鍵突破，那麼「世界模型」到底指的是什麼？它的重要之處在於哪裏？

英偉達入局「世界模型」，一衆科技巨頭「逐鹿」

據英偉達介紹稱，Cosmos WFMs經過了9000萬億個token的訓練，數據來自2000萬小時的真實世界人類互動、環境、工業、機器人和駕駛數據。模型可針對特定應用進行微調，通過英偉達API和NGC目錄、GitHub和AI開發平台Hugging Face可獲得。

多家企業已開始試用Cosmos，英偉達表示，Waabi、Wayve、Fortellix和Uber等多家已經承諾在各種用例中試用CosmosWFM，從視頻搜索和策劃到爲自動駕駛汽車構建AI模型。

不過，由於英偉達拒絕透露訓練數據的具體來源，這引發了版權爭議，分析稱這正是英偉達將這些模型稱爲「開放」而不是「開源」的原因。

與此同時，谷歌DeepMind也在積極佈局世界模型領域。根據TechCrunch報道，DeepMind正在組建一支專門的世界模型研究團隊，以擴大其在該領域的領先地位。該團隊將由前OpenAI研究員TIM Brooks領導，他於去年10月加入DeepMind。

DeepMind上個月發佈了Genie，該模型可模擬虛擬世界以及逼真的動畫和物理效果，並支持所有這些元素之間的交互。例如用戶可以使用Genie創建的各種示例世界，包括航海模擬、賽博朋克西部片等，還可以使用文本、圖像或兩者的組合來提示Genie。

除了英偉達、谷歌等科技巨頭，還有不少耀眼的初創玩家。「AI教母」李飛飛的World Labs已籌集2.3億美元用於構建「大世界模型」，以及Decart、 Odyssey等公司也入局其中。此外，OpenAI此前發佈的Sora模型也可視爲一種“世界模型"，它能夠模擬如畫家在畫布上留下筆觸等行爲，以及渲染類似Minecraft的UI和遊戲世界。

AI領域的下一個關鍵突破：世界模型

什麼是AI「世界模型」？爲什麼它們很重要？

具體來看，世界模型是指通過大量圖像、音頻、視頻和文本數據訓練，創建對世界運作方式的內部表徵，並能推理行爲的後果。這使它們能更好地理解和模擬現實世界的規律。

世界模型的概念源自人類大腦形成的心智模型，我們的大腦能夠將感官獲取的抽象信息整合成對周圍世界的具體理解，從而形成"模型"，這些模型幫助我們預測和感知世界。

世界模型的特點是試圖超越數據，模擬人類的潛意識推理，例如，棒球擊球手能在毫秒內決定如何揮棒，是因爲他們能本能地預測球的軌跡。這種潛意識推理能力被認爲是實現人類級智能的先決條件之一。

「世界模型」的意義在於可以實現複雜推理和規劃，還將生成式視頻技術的突破：

1. 生成式視頻技術的突破：世界模型在生成式視頻領域展現出巨大潛力。與傳統的生成模型相比，具備基本物理規律理解的世界模型能更準確地模擬物體的運動。例如，它不僅能預測籃球會彈跳，還能理解爲什麼會彈跳。Snap前AI負責人、Higgsfield公司CEO Alex Mashrabov表示，有了強大的世界模型，創作者就不需要爲每個物體定義預期的運動方式，模型本身就能理解這些。
2. 複雜預測和規劃：Meta首席AI科學家Yann LeCun認爲，世界模型未來可能用於數字和物理領域的複雜預測和規劃。例如，給定一個髒亂的房間（初始狀態）和一個整潔的房間（目標狀態），世界模型可以推理出一系列清潔行動，而不僅僅是根據觀察到的模式進行操作。

擁有這些能力後，「世界模型」可廣泛賦能影視、遊戲，自動駕駛以及機器人等行業。

World Labs聯合創始人Justin Johnson預測，未來的世界模型可能能夠按需生成用於遊戲、虛擬攝影等用途的3D世界，大大降低開發成本和時間。世界模型將不僅能獲得圖像或視頻片段，還能得到一個完全模擬的、生動的、可交互的3D世界。

代表好萊塢動畫師和漫畫家的工會動畫協會 (Animation Guild) 一項2024年研究估計，人工智能有可能在未來兩年內顛覆美國10多萬個電影、電視和動畫工作崗位。

世界模型還有望推動機器人技術進步，通過增強機器人對周圍環境和自身的感知能力，幫助它們更好地理解所處情境並推理可能的解決方案。

儘管前景誘人，世界模型的發展仍面臨諸多技術挑戰：

巨大的計算需求：訓練和運行"世界模型"需要比當前生成模型更多的計算能力；幻覺和偏見問題：像所有AI模型一樣，"世界模型"也會產生幻覺並內化訓練數據中的偏見。
訓練數據限制：缺乏足夠廣泛而又具體的訓練數據可能會加劇上述問題。複雜行爲模擬：目前的模型難以準確捕捉世界居民（如人類和動物）的行爲。

過去一年AI技術在多元方向持續突破，世界模型被視爲下一個重大突破。雖然距離成熟的「世界模型」還有數年時間距離，但這一技術已展現出巨大潛力。如果所有主要障礙都能克服，「世界模型」有望在虛擬世界生成、機器人技術和AI決策等領域帶來重大突破，爲人工智能與現實世界的融合開闢新的途徑。

想進場但擇時難？「月供專區」功能幫到你！打開富途牛牛>市場>美股>點擊「月供專區」>「創建月供」>設置月供計劃，定時定額入市，把握投資機會！

編輯/ping

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。