①近日,英偉達發佈物理AI大模型Cosmos,能夠預測倉庫、路況等環境以訓練機器人; ②據英偉達披露名單,Cosmos首批用戶包括1X、Agility、Figure AI、小鵬汽車等廠商; ③券商認爲,在人形機器人訓練數據的收集方式中,合成數據將大大促進機器人發展。
《科創板日報》1月8日訊 被 $谷歌-A (GOOGL.US)$ / $谷歌-C (GOOG.US)$ 、OpenAI、 $微軟 (MSFT.US)$ 等全球頂尖科技大廠紛紛看好的具身智能,正加速迎來它的ChatGPT時刻。
近日, $英偉達 (NVDA.US)$ 掌門人黃仁勳在CES演講上正式推出物理AI大模型Cosmos。據介紹,這款模型使開發者能夠根據文本、圖像和視頻等輸入組合以及機器人傳感器或運動數據生成基於物理學的視頻,實現對現實環境(如倉庫、工廠、交通路況等)的預測,從而完成對機器人和自動駕駛汽車的訓練。
所謂物理AI大模型,即是世界基礎模型,其能夠理解世界語言、物理特性、空間位置等要素,併合成相關物理數據。是加速智能汽車、具身智能等AI終端普及的關鍵所在。相較於ChatGPT等大語言模型的飛躍式進程,世界模型仍處於較爲早期的階段。其普遍面臨開發成本高、無法持續遵守物理規則等問題。
值得一提的是,此次英偉達發佈的Cosmos將以開源的形式發佈。根據其披露的名單,首批用戶包括1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot,、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和小鵬汽車等十餘個國內外機器人和汽車廠商。
事實上,英偉達採用逼真物理環境對機器人進行訓練的嘗試可以追溯至2024年6月,當時其運用仿真框架RoboCasa,提供了超過150個物體類別的數千個3D模型和數十種可交互的傢具和家電。在相關實驗中,證明了合成物理數據在機器人訓練中的有效性。
黃仁勳表示,「世界基礎模型是推動機器人和自動駕駛汽車開發的基礎,但並非所有開發者都擁有自主訓練模型所需的專業知識和資源。我們創建Cosmos是爲了普及物理AI,讓每一位開發者都能接觸到通用機器人技術。」
截至目前,已有數個公司推出世界基礎模型。2024年12月5日,谷歌發佈大型基礎世界模型Genie2,可生成較爲逼真的3D世界;同年9月,1XTechnologies發佈人形機器人世界模型,可以模擬出機器人在不同動作下的未來場景。
此外,視頻生成模型也被視作通往世界基礎模型的路徑之一。在視頻生成領域,Sora、Runway等均表達了希望進軍世界模型的想法。開源證券指出,視頻生成和世界模型均有諸多相似之處,均將複雜外部世界獲取的數據進行編碼和壓縮、抽象成爲低維度的向量,並採用Transformer或者其他模型在時空維度學習這些知識進而實現預測。
機構指出,受到文本大模型的啓發,人形機器人也開始構建具身大模型,首當其衝的便是解決數據問題。自動駕駛可簡化爲3D空間中的2D運動,而機器人是3D空間中的3D運動,還需包括力觸覺等信息,因此理論上機器人所需數據量高於自動駕駛。目前,人形機器人訓練數據的收集主要依賴三種方式:
採集真機數據,例如人穿戴動作捕捉服,這種方式數據質量好,但採集成本高速度慢;
利用仿真環境生成合成數據,再對機器人進行訓練;
根據現有的Internet Plus-related視頻捕捉動作數據,雖然不需要構建仿真物理引擎,但涉及複雜的座標轉換和缺少力觸覺等信息維度。
機構認爲,在上述三種方式中,合成數據將大大促進機器人發展,學界已經證明了上述方式的可行性,機器人大腦已迎來ChatGPT時刻。
機器人行業有望彈起?善用「投資主題」功能,捕捉投資機會!
編輯/jayden