《AI未來指北》特約作者 周小燕
編輯 鄭可君
近期,加州大學研究人員和英偉達在共同發表的新論文中提出「NaVILA模型」,NaVILA的核心創新在於,不需要預先的地圖,機器人只需「聽懂」人類的自然語言指令,結合實時的視覺圖像和激光雷達信息,就可以自主導航到指定位置。
想象一下這樣的場景:你早上醒來,家中的服務機器人正在等候你的指令。
你輕輕說道,「去廚房,拿瓶水過來。」 不到一分鐘,機器人小心翼翼地穿過客廳,繞開沙發、寵物和玩具,穩穩地站在冰箱前,打開冰箱門,取出一瓶礦泉水,然後輕輕送到你手中。
這一幕曾經只出現在科幻電影中,而現在,得益於NaVILA模型的出現,這正在變成現實。
NaVILA不僅擺脫了對地圖的依賴,還進一步將導航技術從輪式擴展到了腿式機器人,使得機器人在更多複雜場景中,具備跨越障礙和自適應路徑規劃的能力。
在論文中,加州大學研究人員使用宇樹Go2機器狗和G1人形機器人進行了實測,根據團隊統計的實測結論,在家庭、戶外和工作區等真實環境中,NaVILA的導航成功率高達88%,在複雜任務中的成功率也達到了75%。
(使用NaVILA實測機器狗和機器人聽指令行動)
這項研究給機器人導航範式帶來革新,讓機器人的路徑規劃從「地圖依賴」走向「實時感知」。那麼,NaVILA採用了什麼樣的技術原理?它會給機器人帶來哪些新的能力?
提出「中間指令機制」,
機器人可以自行拆解指令
在傳統的VLN(視覺語言導航系統)中,機器人需要依靠激光雷達(LiDAR)和SLAM算法繪製和維護靜態地圖。無論是家用掃地機器人還是倉儲中的AGV小車,這類機器人只能在預先已知的環境中運行。
一旦面臨動態環境,比如家中寵物走動、倉庫貨架更替這類場景,靜態地圖的效用大幅削弱,機器人必須頻繁重繪地圖,而這會增加系統成本和計算負擔。
但NaVILA不一樣,它可以實現「無圖導航」。
這主要是通過兩套機制來實現的,一種是高層控制器(視覺-語言-行動(VLA)模型),一種是低層控制器。
在高層控制器層面,NaVILA通過視覺-語言-行動(VLA)模型來實現「無圖導航」,即通過視覺圖像、激光雷達和自然語言的多模態輸入,讓機器人實時感知環境中的路徑、障礙物和動態目標。
這套視覺-語言-行動(VLA)模型分三個工作流:
●輸入階段:機器人會接收自然語言的指令和攝像頭的圖像,將人類的語言信息和攝像頭看到的畫面結合起來,識別出路徑中的關鍵目標,比如前方的牆、左邊的障礙物、右邊的樓梯等;
●中間指令生成:生成一份「路徑規劃表」,VLA會生成一系列中間的高層動作指令,這些指令可能是「前進50厘米」、「向左轉90度」、「邁過障礙物」等,類似於「簡化的路徑操作說明書」;
●高頻控制器調用,它的任務是實時控制每一個關節的運動。
在這套工作流之中,NaVILA的最大亮點是提出了一種「中間指令機制」,這種機制讓機器人不需要「死記硬背」每個關節的動作,而是像人類一樣,聽懂高層的指令後,再自行拆解爲具體的行動。
「中間指令機制」可以讓機器人聽懂用戶日常式的交流語言,不同類型的機器人能夠根據自己的「身體結構」去實現動作。
通俗來說,傳統的導航機器人就像一個「機械的搬運工」,每次你要告訴它「左腳先抬,右腳再抬,前進5厘米」,這種控制方式非常繁瑣。
而NaVILA的VLA模型更像一名懂事的助手,你只需要說「向前走50厘米」,它就會自己拆解成「抬左腿、抬右腿、重心前移」等小動作。
(NaVILA是一個兩級框架,將高級視覺語言理解與低級運動控制相結合)
高層控制器(VLA)爲機器人生成了路徑規劃表,但「路徑規劃表」只能告訴機器人往哪裏走,卻不會告訴它怎麼走。
這時就需要一個「低層控制器」來接手,控制機器人具體的關節動作。
假設你讓一個小孩學習走路,如果你只告訴他「去客廳」,他會問你「怎麼去?怎麼邁步?先邁左腳還是右腳?」 在這個場景中,VLA就像家長的語音指令(「去客廳」),而低層控制器就是小孩自己的「肢體控制系統」,它需要根據「去客廳」的目標,控制每隻腳的邁出步長、落地角度和重心平衡,以確保自己不摔倒。
NaVILA的低層控制器使用了一種PPO強化學習算法,通過在NVIDIA的Isaac Sim虛擬仿真平台中訓練機器人,讓機器人學會如何站穩和行走,它的強化學習系統會反覆訓練機器人在草地、臺階、樓梯、石子地等不同的地形中行走,並且要確保機器人在這些不規則的環境中不摔倒。不是靠算,而是靠模擬。
在高層控制器和底層控制器的耦合之下,NaVILA有助於將機器人變得更通用。
NaVILA爲機器人帶來了哪些新可能?
NaVILA將導航技術從輪式機器人延展到了腿式機器人。
傳統的VLN基本都是爲輪式機器人而設計的,輪式機器人通常在平坦的地面工作,它的導航指令通常是「前進X米,左轉X度」。
這些命令適配輪式機器人很方便,但腿式機器人需要更精細的控制,因爲它們通常要面臨更復雜的地形和障礙物。
而NaVILA的「中間指令」更親民,用戶只需說「去廚房,幫我拿瓶水」,機器人便可理解這段語義,規劃路徑,執行任務,而不必說出「前進2米,左轉90度」之類的指令。
此外,使用NaVILA的指令還包含更具體的動作信息,如「邁出一小步」、「抬腳越過障礙物」等。
這使得NaVILA能夠將高層次的路徑規劃與底層的腿式運動解耦,讓同一套VLA控制邏輯可以適配不同的機器人平台。
從這個角度來看,NaVILA可以用來控制不同形態的機器人,比如四足機器人和人形機器人。
在論文公佈的測試視頻中,工作人員使用NaVILA通過語言順利命令宇樹Go2機器狗和G1人形機器人運動。
從實測來看,NaVILA無圖導航能力也有助於擴大適應人類環境的足式機器人的實際使用場景。
(宇樹Go2機器狗接受行動指令:向左轉一點,朝着肖像海報走,你會看到一扇敞開的門)
(宇數G1人形機器人接受行動指令:立即左轉並直行,踩上墊子繼續前進,直到接近垃圾桶時停下來)
爲什麼這麼說?因爲在傳統的VLN系統中,沒有地圖,機器人就移動不了,一旦環境發生變化,機器人就很難應付。
所以,NaVILA雖然沒有讓機器人「長腿」,但它讓「長腿的機器人更聰明」。
過去,足式機器人雖然有「腿」,但每次驅動它們都需要同時控制膝關節、髖關節、腳踝等多個關節。
如果用傳統的控制邏輯去設計,需要爲每個關節寫代碼,還要不斷調整,成本高且難度大,NaVILA則降低了足式機器人的運作成本。
同時,這也擴大了機器人的使用場景。
比如,在家庭場景,過去的掃地機器人只能在單一的房間中打轉,因爲它跨不過幾厘米高的門檻。而足式機器人卻能像人一樣,一步跨過門檻,走進廚房,爲你取一瓶水。當你說「去廚房拿瓶水」,它不僅聽得懂,還能在家中繞過寵物、躲開玩具,靈活自如地完成任務。
在搜索救援和災後救援場景中,足式機器人在地震廢墟中,碎石、瓦礫、鋼筋等不規則的地面行走,它可以跨越障礙、爬過瓦礫、深入廢墟深處,幫助搜救人員尋找倖存者。NaVILA的「無地圖導航」能力還意味着,即使搜救環境不斷變化,機器人也能根據實時的路徑感知,自動調整路線。
結 語
NaVILA幫助機器人從對死板的地圖或複雜的傳感器的依賴中解脫出來,機器人可以像人類一樣,通過語言與視覺的結合在複雜的環境中找到自己的路。
尤其是對於四足式機器人,NaVILA給它們帶來了更大的自由度,使得足式機器人能夠靈活地應對不規則的地形和障礙。
相關資料:
NaVILA: Legged Robot Vision-Language-Action Model for Navigation
推薦閱讀