share_log

周末读物 | 英伟达对机器人下手了

週末讀物 | 英偉達對機器人下手了

遠川科技評論 ·  03/22 07:31

來源:遠川科技評論

春節前夕,黃仁勳照例開啓年會巡演,北京站成爲各路CEO追星現場。大合照中,坐在黃仁勳左邊的是宇樹科技的王興興,第一排最右是銀河通用的王鶴。

三人曾在年初的CES展上有過一次「非正式會談」,當時黃仁勳演講到尾聲,人形機器人軍團壓軸登場,其中就包括宇樹在春晚轉手絹的H1、銀河通用的Galbot G1。

英偉達年會與2025年CES展

發佈會現場,14台人形機器人一字排開,有波士頓動力這種老牌選手,有宇樹這樣的行業新貴,還有跨界玩家小鵬,唯獨缺席了一邊買黃總的芯片一邊悄悄搞自研的特斯拉。

在機器人軍團壓軸登場前,黃仁勳公佈了一系列大模型組成的機器人訓練平台Cosmos

Cosmos的作用可以簡單理解爲在虛擬世界模擬真實的物理環境,瞄準的是當前人形機器人產業的真空帶、也是英偉達圍繞人形機器人佈局的最後一環——仿真數據

三個月後的英偉達GTC,機器人再度成爲壓軸節目。除了Cosmos再度刷臉,英偉達還發佈了一個人形機器人基礎模型Isaac GR00T N1,仿真物理模型Newton,並由小機器人Blue完成收尾。

機器人Blue(右)

如果把人形機器人視爲人工智能領域一條正在瘋狂施工的高速公路,那麼英偉達正在做的事情,就是提前把收費站先修好。

五年高考三年模擬

從年初的CES到前兩天的GTC,英偉達真正的關鍵詞是「物理AI」。

按照黃仁勳的說法,AI的新一波浪潮是物理AI,其關鍵環節是讓AI理解物理定律,人形機器人則是當下最重要的載體。

傳統的工業機器人大多基於特定的規劃執行特定的操作,比如交通和分揀,與其說機器人,倒不如說是一種「自動化設備」。

但人形機器人在理想狀態下,可以理解物理世界各種物體、語言和文字的含義,並自主規劃和決策。

2023年7月,《紐約時報》探班谷歌實驗室,記錄了一個基於RT-2模型的機器人智能閃現的瞬間:桌子上放着恐龍、鯨魚、獅子三個塑料玩具,工程師讓機器人「撿起滅絕的動物」,機器人拿起了恐龍。

這個案例很好的說明了人形機器人最大的變革:機器人不僅能識別三種動物,也能理解「滅絕的動物」的含義,還可以完成具體的操作。

也就是說,兩者的核心區別在「智能」。判斷機器人的智能化程度,不是看它會不會前後空翻大劈叉,而是能不能像人一樣思考。

和大模型訓練一樣,讓機器人擁有思考能力的過程,同樣是對數據的消耗——換句話說就是刷題。

人工智能泰斗級人物李飛飛曾對算法的訓練過程有一個形象的解釋:讓算法不斷觀察包含貓和其他動物的圖片,在每張圖片背後寫下正確答案。計算機每看一次圖片,就和背面的答案覈對一次。只要次數夠多,算法就能學會辨別貓。

但問題是,寫好答案的圖片並不是現成的。

和GPT等大模型爬取互聯網數據不同,機器人會和真實世界產生交互,因此需要遵循物理規則的真實數據來訓練算法。但如果用真人動作捕捉來訓練,不僅成本高,也容易坐實「AI奴役人類」的地獄笑話。

之中的數據空白,就成爲了仿真數據的實踐空間。所謂仿真數據,可以簡單理解爲在虛擬空間構建遵循真實世界物理規則的場景,並輸出爲可以被用來訓練的數據。

馬斯克就是仿真數據的鐵桿粉絲,2021年的特斯拉AI Day,馬斯克曾公開過自家數據仿真技術,當時生成並投入訓練的仿真數據規模就已經達到了37.1億張圖片和4.8億標註[2]。xAi最新發佈的Grok 3,也投餵了大量仿真數據用於訓練。

自動駕駛尚且可以蒐集車主真實的行駛數據用於訓練,機器人尚未大規模投入應用,對仿真數據的需求更爲迫切。

真實數據和仿真數據就像「五年高考」和「三年模擬」,一個是真題,一個是模擬題。真題的參考價值更高,但數量有限,模擬題量大管飽,但參考價值要看它與真題的相似程度。

至此,英偉達湊齊了人形機器人開發「三大件」——超級計算機DGX(訓練算力)、融合了Cosmos的仿真平台Omniverse(訓練數據)、終端芯片Jetson Thor(推理算力)。

除了沒下場造機器人,能幹的活基本全乾了。

物理騙術和算力遊戲

在虛擬世界構建物理規則這件事上,英偉達的積累恐怕比大部分人想象的深厚。

一項技術的應用並不取決於技術本身,而是能否綁定一個高商業價值的場景,實現自我造血的良性循環。在機器人和自動駕駛大規模產業化之前,最匹配這項技術的英偉達的老本行:遊戲。

大多數遊戲都是對現實世界的模擬,但虛擬世界並不遵循現實世界的物理規則,小到遊戲世界草木樹葉飄動的方向、服裝布料的褶皺,大到刀劍揮砍的力度和反饋效果,都會影響遊戲的「沉浸感」。

一種改進思路由此產生:爲什麼不用物理公式計算物體的實時運動狀態、設計運動軌跡呢?

當時,一家名叫Ageia的初創公司開發了物理引擎PhysX,通過對遊戲畫面中的物體做「受力分析->代入運動方程->更新位置信息->輸出」的實時循環計算[3],讓遊戲中的場景儘可能貼合真實世界的物理規則。

由於PhysX需要消耗大量算力,Ageia還專門開發了配套的硬件PPU(Physics Processing Unit)專門負責物理運算。可惜PPU銷量慘淡,Ageia瀕臨倒閉,黃仁勳騎着白馬就來了。

收購完成後,英偉達乾的第一件事就是砍掉PPU產品線,將PhysX的計算工作交給自家的GPU,並推出針對遊戲開發的軟體工具箱PhysX APEX,降低使用門檻。

由於PhysX的特性是對物理規則的模擬和仿真,此後幾年,英偉達還推動了PhysX在醫療手術、影視特效等工業場景的應用。

2019年,英偉達在GPU架構中引入RT核心,推出了光線追蹤功能。

和PhysX類似,光線追蹤的核心同樣是對真實物理規則的模擬——根據物體和光源、障礙物間的相對位置,實時計算出光線反射至人眼的狀態[4],每束光線的實時計算結果組合成一幀的畫面,讓英偉達狠狠秀了一把算力的肌肉。

伴隨自動駕駛、人形機器人這些新產業的出現,「在虛擬世界模擬物理規則」的需求也越來越大。

Cosmos和Omniverse等軟體工具的出現,相當於英偉達給人形機器人建了個可以沉浸式訓練的「健身房」,接下來就可以賣「私教課」了——你看我的芯片怎麼樣?

英偉達的野心

過去二十年,英偉達的經營思路可以用一句話來概括:讓高性能計算不斷覆蓋高價值的場景。

GPU是高性能計算的載體,也是英偉達的核心產品。2010年之前,雖然一些學者已經開始使用GPU訓練神經網絡,但GPU對應的高價值場景其實只有遊戲一個。

按照黃仁勳的說法,遊戲市場「既代表着最棘手的技術難題,又具備驚人的市場規模,同時擁有這兩個特質的市場非常罕見。」

英偉達開拓的第一個新場景是移動設備。2013年小米3發佈,處理器採用高通驍龍800和英偉達的Tegra系列混搭,是英偉達切入手機市場,開闢顯卡之外第二戰線的絕佳機會。

當時,英文不好的雷軍和中文不好的黃仁勳罕見同台,黃仁勳現場還當了一回米粉。

可惜Tegra芯片因爲製程和外掛基帶問題,能耗失控發熱嚴重。英偉達的移動業務此後也未見起色,Tegra系列只能在任天堂Switch上發揮餘熱。後來黃仁勳去臺大演講,稱英偉達「主動放棄」了智能手機市場。

第二個場景是自動駕駛。最先吃螃蟹的是特斯拉,Model S/X都曾搭載過英偉達的方案。黃仁勳也從米粉變成特斯拉車主,跟馬斯克如膠似漆。

雖然特斯拉後來用自研方案替代了英偉達,但有了榜樣的力量,英偉達還是順利打入造車新勢力內部。不過汽車業務在英偉達的版圖中遠不如遊戲和數據中心耀眼,營收佔比幾乎從未超過5%。

第三個場景是人工智能。ChatGPT的橫空出世讓英偉達徹底打開收入天花板,計算機視覺、大語言模型等前沿計算機科學統統都離不開英偉達的芯片,也讓後者成爲了全球市值最高的半導體公司。

第四個場景就是人形機器人,以及更加廣闊的「物理AI」。按照黃仁勳的說法,「我們正處於生成式人工AI階段,將走向智能體AI時代,隨後是物理AI時代。」

而在具體思路上,英偉達不僅提供芯片,還會開發對應的軟體工具箱和配套服務。換句話說,英偉達不僅賣鏟子,也提供全套的保養工具和防護設備,但必須搭配英偉達牌的鏟子。

在遊戲業務裏,光線追蹤、DLSS等功能必須搭配英偉達的GPU使用;類似的邏輯,英偉達不僅向大模型和雲計算公司出售GPU,還會提供NVLink這類通信連接方案、CUDA編程平台與之牢牢綁定。

隨着今年GTC演講結束,Cosmos、Newton等軟體和模型的發佈,一個圍繞GPU與「物理AI」的收費站也宣告落成。

如果黃仁勳中文水平夠高,多少也得來一句「英偉達不造機器人,幫助機器人公司造好機器人」。

參考資料

[1] 未來簡史,尤瓦爾·赫拉利

[2] 萬字長文詳解特斯拉自動駕駛體系,自動駕駛之心

[3] 給我一個物理引擎,我也能「預測」世界盃?中科院物理所

[4] 「光線追蹤」雜談,電子報

[5] Unimate 機器人:工業自動化的起源,AGV

編輯/jayden

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
40
評論 評論 5 · 瀏覽 17.1萬

評論(5)

熱點推薦

寫評論
5

聲明

本頁的譯文內容由軟件翻譯。富途將竭力但卻不能保證翻譯內容之準確和可靠,亦不會承擔因任何不準確或遺漏而引起的任何損失或損害。