來源:硬AI
作者:趙穎
「世界模型」被業內吹捧爲是AI領域的下一個關鍵突破,英偉達,谷歌以及不少初創企業都在追逐世界模型,英偉達推出COSMOS世界模型,谷歌旗下DeepMind組建世界模型研究團隊,AI教母”李飛飛的World Labs籌集2.3億美元構建「大世界模型」......
黃仁勳身着新皮衣亮相2025 CES,除了推出炸裂的GPU RTX 5090之外,還宣佈入局AI領域當下最關鍵的方向一「世界模型」。
1月7日,黃仁勳在2025年拉斯維加斯消費電子展(CES)上宣佈,推出阿童木世界模型(Cosmos World Foundation Models,簡稱Cosmos WFMs),該模型專爲理解物理世界打造,可預測和生成「物理感知」的視頻。
具體來看,Cosmos WFMs分爲三類:
(1)Nano:適用於低延遲和實時應用;(2)Super:高性能基線模型;(3)最高質量和保真度輸出。
這些模型的參數規模從40億到140億不等,Nano最小,Ultra最大。英偉達還發佈了上採樣模型、針對增強現實優化的視頻解碼器以及確保負責任使用的guardrail模型。
實際上,除了$英偉達 (NVDA.US)$,$谷歌-A (GOOGL.US)$以及不少初創企業也在追逐世界模型,谷歌旗下DeepMind組建世界模型研究團隊,聘請Sora核心人員TIM Brooks掌舵。此外,「AI教母」李飛飛的World Labs、初創公司Decart、 Odyssey也都涉足其中。
不僅引得一衆科技企業逐鹿,「世界模型」還被業內吹捧爲是AI領域的下一個關鍵突破,那麼「世界模型」到底指的是什麼?它的重要之處在於哪裏?
英偉達入局「世界模型」,一衆科技巨頭「逐鹿」
據英偉達介紹稱,Cosmos WFMs經過了9000萬億個token的訓練,數據來自2000萬小時的真實世界人類互動、環境、工業、機器人和駕駛數據。模型可針對特定應用進行微調,通過英偉達API和NGC目錄、GitHub和AI開發平台Hugging Face可獲得。
多家企業已開始試用Cosmos,英偉達表示,Waabi、Wayve、Fortellix和Uber等多家已經承諾在各種用例中試用CosmosWFM,從視頻搜索和策劃到爲自動駕駛汽車構建AI模型。
不過,由於英偉達拒絕透露訓練數據的具體來源,這引發了版權爭議,分析稱這正是英偉達將這些模型稱爲「開放」而不是「開源」的原因。
與此同時,谷歌DeepMind也在積極佈局世界模型領域。根據TechCrunch報道,DeepMind正在組建一支專門的世界模型研究團隊,以擴大其在該領域的領先地位。該團隊將由前OpenAI研究員TIM Brooks領導,他於去年10月加入DeepMind。
DeepMind上個月發佈了Genie,該模型可模擬虛擬世界以及逼真的動畫和物理效果,並支持所有這些元素之間的交互。例如用戶可以使用Genie創建的各種示例世界,包括航海模擬、賽博朋克西部片等,還可以使用文本、圖像或兩者的組合來提示Genie。
除了英偉達、谷歌等科技巨頭,還有不少耀眼的初創玩家。「AI教母」李飛飛的World Labs已籌集2.3億美元用於構建「大世界模型」,以及Decart、 Odyssey等公司也入局其中。此外,OpenAI此前發佈的Sora模型也可視爲一種“世界模型",它能夠模擬如畫家在畫布上留下筆觸等行爲,以及渲染類似Minecraft的UI和遊戲世界。
AI領域的下一個關鍵突破:世界模型
什麼是AI「世界模型」?爲什麼它們很重要?
具體來看,世界模型是指通過大量圖像、音頻、視頻和文本數據訓練,創建對世界運作方式的內部表徵,並能推理行爲的後果。這使它們能更好地理解和模擬現實世界的規律。
世界模型的概念源自人類大腦形成的心智模型,我們的大腦能夠將感官獲取的抽象信息整合成對周圍世界的具體理解,從而形成"模型",這些模型幫助我們預測和感知世界。
世界模型的特點是試圖超越數據,模擬人類的潛意識推理,例如,棒球擊球手能在毫秒內決定如何揮棒,是因爲他們能本能地預測球的軌跡。這種潛意識推理能力被認爲是實現人類級智能的先決條件之一。
「世界模型」的意義在於可以實現複雜推理和規劃,還將生成式視頻技術的突破:
1. 生成式視頻技術的突破:世界模型在生成式視頻領域展現出巨大潛力。與傳統的生成模型相比,具備基本物理規律理解的世界模型能更準確地模擬物體的運動。例如,它不僅能預測籃球會彈跳,還能理解爲什麼會彈跳。Snap前AI負責人、Higgsfield公司CEO Alex Mashrabov表示,有了強大的世界模型,創作者就不需要爲每個物體定義預期的運動方式,模型本身就能理解這些。
2. 複雜預測和規劃:Meta首席AI科學家Yann LeCun認爲,世界模型未來可能用於數字和物理領域的複雜預測和規劃。例如,給定一個髒亂的房間(初始狀態)和一個整潔的房間(目標狀態),世界模型可以推理出一系列清潔行動,而不僅僅是根據觀察到的模式進行操作。
擁有這些能力後,「世界模型」可廣泛賦能影視、遊戲,自動駕駛以及機器人等行業。
World Labs聯合創始人Justin Johnson預測,未來的世界模型可能能夠按需生成用於遊戲、虛擬攝影等用途的3D世界,大大降低開發成本和時間。世界模型將不僅能獲得圖像或視頻片段,還能得到一個完全模擬的、生動的、可交互的3D世界。
代表好萊塢動畫師和漫畫家的工會動畫協會 (Animation Guild) 一項2024年研究估計,人工智能有可能在未來兩年內顛覆美國10多萬個電影、電視和動畫工作崗位。
世界模型還有望推動機器人技術進步,通過增強機器人對周圍環境和自身的感知能力,幫助它們更好地理解所處情境並推理可能的解決方案。
儘管前景誘人,世界模型的發展仍面臨諸多技術挑戰:
巨大的計算需求:訓練和運行"世界模型"需要比當前生成模型更多的計算能力;幻覺和偏見問題:像所有AI模型一樣,"世界模型"也會產生幻覺並內化訓練數據中的偏見。
訓練數據限制:缺乏足夠廣泛而又具體的訓練數據可能會加劇上述問題。複雜行爲模擬:目前的模型難以準確捕捉世界居民(如人類和動物)的行爲。
過去一年AI技術在多元方向持續突破,世界模型被視爲下一個重大突破。雖然距離成熟的「世界模型」還有數年時間距離,但這一技術已展現出巨大潛力。如果所有主要障礙都能克服,「世界模型」有望在虛擬世界生成、機器人技術和AI決策等領域帶來重大突破,爲人工智能與現實世界的融合開闢新的途徑。
想進場但擇時難? 「月供專區」功能幫到你!打開富途牛牛>市場>美股>點擊「月供專區」>「創建月供」>設置月供計劃,定時定額入市,把握投資機會!
編輯/ping