①不需要预先的地图,结合实时的视觉图像和激光雷达信息,机器人可实时感知环境;②NaVILA还进一步将导航技术从轮式扩展到了足式机器人,研究人员对宇树Go2机器狗和G1人形机器人进行了实测;③NVILA模型具有强大的多模态推理能力。
《科创板日报》12月11日讯(编辑 宋子乔) 日前,加州大学研究人员和$英伟达 (NVDA.US)$共同发布了新的视觉语言模型“NaVILA”。亮点在于,NaVILA模型为机器人导航提供了一种新方案。
视觉语言模型(VLM)是一种多模态生成式AI模型,能够对文本、图像和视频提示进行推理。它通过将大语言模型(LLM)与视觉编码器相结合,使LLM具有“看”的能力。
传统的机器人行动往往依赖于预先绘制的地图和复杂的传感器系统。而NaVILA模型不需要预先的地图,机器人只需“听懂”人类的自然语言指令,结合实时的视觉图像和激光雷达信息,实时感知环境中的路径、障碍物和动态目标,就可以自主导航到指定位置。
不仅摆脱了对地图的依赖,NaVILA还进一步将导航技术从轮式扩展到了足式机器人,希望让机器人应付更多复杂场景,使其具备跨越障碍和自适应路径规划的能力。
在论文中,加州大学研究人员使用宇树Go2机器狗和G1人形机器人进行了实测。根据团队统计的实测结论,在家庭、户外和工作区等真实环境中,NaVILA的导航成功率高达88%,在复杂任务中的成功率也达到了75%。
据介绍,NaVILA模型的特点在于:
优化准确性与效率:NVILA模型在训练成本上降低了4.5倍,微调所需内存减少了3.4倍。在预填充和解码的延迟上几乎降低了2倍(这些数据是与另一个大型视觉模型LLaVa OneVision进行比较得出的)。
高分辨率输入:NVILA模型并不通过降低照片和视频的大小来优化输入,而是使用高分辨率图像和视频中的多个帧,以确保不丢失任何细节。
压缩技术:英伟达指出,训练视觉语言模型的成本非常高,同时,微调这样的模型也非常耗费内存,7B参数的模型需要超过64GB的GPU内存。因此英伟达采用了一种名为“先扩展后压缩”的技术,通过将视觉信息压缩为更少的token,来减少输入数据的大小,并将像素进行分组,以保留重要信息,平衡模型的准确性与效率。
多模态推理能力:NVILA模型能够根据一张图片或一段视频回答多个查询,具有强大的多模态推理能力。
在视频基准测试中,NVILA的表现超过了GPT-4o Mini,并且在与GPT-4o、Sonnet 3.5和Gemini 1.5 Pro的比较中也表现出色。NVILA还在与Llama 3.2的对比中取得了微弱胜利。
英伟达表示,目前尚未将该模型发布到Hugging Face平台上,其承诺会很快发布代码和模型,以促进模型的可复现性。
编辑/ping
①不需要預先的地圖,結合實時的視覺圖像和激光雷達信息,機器人可實時感知環境;②NaVILA還進一步將導航技術從輪式擴展到了足式機器人,研究人員對宇樹Go2機器狗和G1人形機器人進行了實測;③NVILA模型具有強大的多模態推理能力。
《科創板日報》12月11日訊(編輯 宋子喬) 日前,加州大學研究人員和$英偉達 (NVDA.US)$共同發佈了新的視覺語言模型「NaVILA」。亮點在於,NaVILA模型爲機器人導航提供了一種新方案。
視覺語言模型(VLM)是一種多模態生成式AI模型,能夠對文本、圖像和視頻提示進行推理。它通過將大語言模型(LLM)與視覺編碼器相結合,使LLM具有「看」的能力。
傳統的機器人行動往往依賴於預先繪製的地圖和複雜的傳感器系統。而NaVILA模型不需要預先的地圖,機器人只需「聽懂」人類的自然語言指令,結合實時的視覺圖像和激光雷達信息,實時感知環境中的路徑、障礙物和動態目標,就可以自主導航到指定位置。
不僅擺脫了對地圖的依賴,NaVILA還進一步將導航技術從輪式擴展到了足式機器人,希望讓機器人應付更多複雜場景,使其具備跨越障礙和自適應路徑規劃的能力。
在論文中,加州大學研究人員使用宇樹Go2機器狗和G1人形機器人進行了實測。根據團隊統計的實測結論,在家庭、戶外和工作區等真實環境中,NaVILA的導航成功率高達88%,在複雜任務中的成功率也達到了75%。
據介紹,NaVILA模型的特點在於:
優化準確性與效率:NVILA模型在訓練成本上降低了4.5倍,微調所需內存減少了3.4倍。在預填充和解碼的延遲上幾乎降低了2倍(這些數據是與另一個大型視覺模型LLaVa OneVision進行比較得出的)。
高分辨率輸入:NVILA模型並不通過降低照片和視頻的大小來優化輸入,而是使用高分辨率圖像和視頻中的多個幀,以確保不丟失任何細節。
壓縮技術:英偉達指出,訓練視覺語言模型的成本非常高,同時,微調這樣的模型也非常耗費內存,7B參數的模型需要超過64GB的GPU內存。因此英偉達採用了一種名爲「先擴展後壓縮」的技術,通過將視覺信息壓縮爲更少的token,來減少輸入數據的大小,並將像素進行分組,以保留重要信息,平衡模型的準確性與效率。
多模態推理能力:NVILA模型能夠根據一張圖片或一段視頻回答多個查詢,具有強大的多模態推理能力。
在視頻基準測試中,NVILA的表現超過了GPT-4o Mini,並且在與GPT-4o、Sonnet 3.5和Gemini 1.5 Pro的比較中也表現出色。NVILA還在與Llama 3.2的對比中取得了微弱勝利。
英偉達表示,目前尚未將該模型發佈到Hugging Face平台上,其承諾會很快發佈代碼和模型,以促進模型的可復現性。
編輯/ping