英偉達最新研究成果！開闢機器人導航更多可能，無需地圖實時感知

財聯社 · 17:37

①不需要预先的地图，结合实时的视觉图像和激光雷达信息，机器人可实时感知环境；②NaVILA还进一步将导航技术从轮式扩展到了足式机器人，研究人员对宇树Go2机器狗和G1人形机器人进行了实测；③NVILA模型具有强大的多模态推理能力。

《科创板日报》12月11日讯（编辑宋子乔）日前，加州大学研究人员和$英伟达 (NVDA.US)$共同发布了新的视觉语言模型“NaVILA”。亮点在于，NaVILA模型为机器人导航提供了一种新方案。

视觉语言模型（VLM）是一种多模态生成式AI模型，能够对文本、图像和视频提示进行推理。它通过将大语言模型（LLM）与视觉编码器相结合，使LLM具有“看”的能力。

传统的机器人行动往往依赖于预先绘制的地图和复杂的传感器系统。而NaVILA模型不需要预先的地图，机器人只需“听懂”人类的自然语言指令，结合实时的视觉图像和激光雷达信息，实时感知环境中的路径、障碍物和动态目标，就可以自主导航到指定位置。

不仅摆脱了对地图的依赖，NaVILA还进一步将导航技术从轮式扩展到了足式机器人，希望让机器人应付更多复杂场景，使其具备跨越障碍和自适应路径规划的能力。

在论文中，加州大学研究人员使用宇树Go2机器狗和G1人形机器人进行了实测。根据团队统计的实测结论，在家庭、户外和工作区等真实环境中，NaVILA的导航成功率高达88%，在复杂任务中的成功率也达到了75%。

据介绍，NaVILA模型的特点在于：

优化准确性与效率：NVILA模型在训练成本上降低了4.5倍，微调所需内存减少了3.4倍。在预填充和解码的延迟上几乎降低了2倍（这些数据是与另一个大型视觉模型LLaVa OneVision进行比较得出的）。

高分辨率输入：NVILA模型并不通过降低照片和视频的大小来优化输入，而是使用高分辨率图像和视频中的多个帧，以确保不丢失任何细节。

压缩技术：英伟达指出，训练视觉语言模型的成本非常高，同时，微调这样的模型也非常耗费内存，7B参数的模型需要超过64GB的GPU内存。因此英伟达采用了一种名为“先扩展后压缩”的技术，通过将视觉信息压缩为更少的token，来减少输入数据的大小，并将像素进行分组，以保留重要信息，平衡模型的准确性与效率。

多模态推理能力：NVILA模型能够根据一张图片或一段视频回答多个查询，具有强大的多模态推理能力。

在视频基准测试中，NVILA的表现超过了GPT-4o Mini，并且在与GPT-4o、Sonnet 3.5和Gemini 1.5 Pro的比较中也表现出色。NVILA还在与Llama 3.2的对比中取得了微弱胜利。

英伟达表示，目前尚未将该模型发布到Hugging Face平台上，其承诺会很快发布代码和模型，以促进模型的可复现性。

编辑/ping

①不需要預先的地圖，結合實時的視覺圖像和激光雷達信息，機器人可實時感知環境；②NaVILA還進一步將導航技術從輪式擴展到了足式機器人，研究人員對宇樹Go2機器狗和G1人形機器人進行了實測；③NVILA模型具有強大的多模態推理能力。

《科創板日報》12月11日訊（編輯宋子喬）日前，加州大學研究人員和$英偉達 (NVDA.US)$共同發佈了新的視覺語言模型「NaVILA」。亮點在於，NaVILA模型爲機器人導航提供了一種新方案。

視覺語言模型（VLM）是一種多模態生成式AI模型，能夠對文本、圖像和視頻提示進行推理。它通過將大語言模型（LLM）與視覺編碼器相結合，使LLM具有「看」的能力。

傳統的機器人行動往往依賴於預先繪製的地圖和複雜的傳感器系統。而NaVILA模型不需要預先的地圖，機器人只需「聽懂」人類的自然語言指令，結合實時的視覺圖像和激光雷達信息，實時感知環境中的路徑、障礙物和動態目標，就可以自主導航到指定位置。

不僅擺脫了對地圖的依賴，NaVILA還進一步將導航技術從輪式擴展到了足式機器人，希望讓機器人應付更多複雜場景，使其具備跨越障礙和自適應路徑規劃的能力。

在論文中，加州大學研究人員使用宇樹Go2機器狗和G1人形機器人進行了實測。根據團隊統計的實測結論，在家庭、戶外和工作區等真實環境中，NaVILA的導航成功率高達88%，在複雜任務中的成功率也達到了75%。

據介紹，NaVILA模型的特點在於：

優化準確性與效率：NVILA模型在訓練成本上降低了4.5倍，微調所需內存減少了3.4倍。在預填充和解碼的延遲上幾乎降低了2倍（這些數據是與另一個大型視覺模型LLaVa OneVision進行比較得出的）。

高分辨率輸入：NVILA模型並不通過降低照片和視頻的大小來優化輸入，而是使用高分辨率圖像和視頻中的多個幀，以確保不丟失任何細節。

壓縮技術：英偉達指出，訓練視覺語言模型的成本非常高，同時，微調這樣的模型也非常耗費內存，7B參數的模型需要超過64GB的GPU內存。因此英偉達採用了一種名爲「先擴展後壓縮」的技術，通過將視覺信息壓縮爲更少的token，來減少輸入數據的大小，並將像素進行分組，以保留重要信息，平衡模型的準確性與效率。

多模態推理能力：NVILA模型能夠根據一張圖片或一段視頻回答多個查詢，具有強大的多模態推理能力。

在視頻基準測試中，NVILA的表現超過了GPT-4o Mini，並且在與GPT-4o、Sonnet 3.5和Gemini 1.5 Pro的比較中也表現出色。NVILA還在與Llama 3.2的對比中取得了微弱勝利。

英偉達表示，目前尚未將該模型發佈到Hugging Face平台上，其承諾會很快發佈代碼和模型，以促進模型的可復現性。

編輯/ping

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

英伟达最新研究成果！开辟机器人导航更多可能，无需地图实时感知