追蹤AI最新趨勢

SIGGRAPH 2024：英偉達“AI盒子”升級，黃仁勳想打造物理世界的數字副本

来源：腾讯科技
作者：李海丹

北京时间7月30日，$英伟达 (NVDA.US)$在美国丹佛市举行的顶尖计算机图形大会SIGGRAPH 2024上展示了在渲染、仿真和生成式AI领域的多项最新进展。

去年的SIGGRAPH，英伟达推出GH200、L40S显卡、ChatUSD轮番登场。而今年的主角，是英伟达在生成式AI时代的新王牌——“Nvidia NIM”全新升级，并且通过NIM 将生成式 AI 应用于 USD（通用场景描述），拓宽AI在3D世界的可能性。

01 Nvidia NIM升级：既是福音，也是挑战

英伟达宣布，Nvidia NIM实现了进一步优化，并标准化了AI模型的复杂部署。NIM是英伟达在AI布局中的关键一环。黄仁勋多次对NIM带来的创新赞赏有佳，称其是“AI-in-a-Box, 本质上它就是盒子里的人工智能。”

这次升级无疑巩固了英伟达在AI领域的领导地位，成为其技术护城河的重要组成部分。

一直以来，CUDA被认为是英伟达在GPU领域建立领导地位的关键因素。借助CUDA的支持，GPU从单一的图形处理器发展成为通用的并行计算设备，使得AI开发成为可能。不过，尽管英伟达的软件生态系统非常丰富，但对于缺乏AI基础开发能力的传统行业来说，这些分散的系统仍然过于复杂和难以掌握。

为了解决这一问题，在今年3月，英伟达在GTC大会上推出了NIM（Nvidia Inference Microservices）云原生微服务，将过去几年开发的所有软件集成在一起，以简化和加速AI应用的部署。NIM可将模型作为优化的“容器”，这些容器可部署在云端、数据中心或工作站上，让开发人员能够在几分钟内完成工作，比如轻松为副驾驶、聊天机器人等构建生成式 AI 应用程序。

到现在，Nvidia布局的NIM生态系统已经可提供一系列预训练的AI模型。英伟达宣布，帮助开发者在多个领域加速应用开发和部署，并且重点在不同的领域（如理解、数字人、三维开发、机器人技术和数字生物学）中提供的具体AI模型：

Nvidia NIM（Nvidia Inference Model）提供的服务及其具体模型

理解方向，NIM可使用Llama 3.1和NeMo Retriever，提升文本数据的处理能力；数字人方向，提供了Parakeet ASR和FastPitch HiFiGAN等模型，支持高保真语音合成和自动语音识别，为构建虚拟助手和数字人类提供了强大的工具；

在三维开发方面，USD Code和USD Search等模型简化三维场景的创建和操作，帮助开发者更高效地构建数字孪生和虚拟世界；

在机器人具身方向，英伟达推出了MimicGen和Robocasa模型，通过生成合成运动数据和模拟环境，加速了机器人技术的研发和应用。MimicGen NIM 可根据 Apple Vision Pro 等空间计算设备记录的远程操作数据，生成合成运动数据。Robocasa NIM 可在 OpenUSD (一个用于在 3D 世界中进行开发和协作的通用框架)中生成机器人任务和仿真就绪环境。

数字生物学领域的DiffDock和ESMFold等模型，则在药物发现和蛋白质折叠预测方面提供了先进的解决方案，推动了生物医学研究的进展等等。

此外，Nvidia宣布Hugging Face推理即服务平台也由Nvidia NIM提供支持，在云端运行。

通过整合这些多功能模型，Nvidia的这种生态系统不仅提升了AI开发的效率，还提供了创新的工具和解决方案。不过，尽管Nvidia NIM的诸多升级对于行业确实是一大“福音”。但从另一面来看，也给程序员们带来了很多挑战。

Nvidia NIM通过提供预训练的AI模型和标准化的API，大大简化了AI模型的开发和部署过程，这对于开发者来说确实是一大福音，但是否也意味着普通程序员的就业机会未来或将进一步收缩？毕竟，企业可以用更少的技术人员完成同样的工作，因为这些任务已经由NIM预先完成，普通程序员可能不再需要进行复杂的模型训练和调优工作。

02 教AI用3D思维进行思考，构建虚拟物理世界

英伟达在SIGGRAPH大会上也展示了生成性AI在开放USD和Omniverse平台上的应用。

英伟达宣布，构建了世界上首个能够理解基于 OpenUSD（Universal Scene Description 通用场景描述）语言、几何、材料、物理和空间的生成性AI模型，并将这些模型打包为Nvidia NIM微服务。目前，在Nvidia API目录中有三个NIM可供预览：USD Code，用于回答开放USD的知识问题并生成开放USD Python代码；USD Search，允许开发者使用自然语言或图像输入搜索庞大的开放USD 3D和图像数据库；USD Validate，可检查上传文件与开放USD发布版本的兼容性，并使用Omniverse云API生成完全RTX渲染的路径追踪图像。

英伟达表示，随着Nvidia NIM微服务对OpenUSD的增强和可访问性，未来各行各业都可以构建基于物理的虚拟世界和数字孪生。通过基于开放USD的新的生成性AI和Nvidia加速开发框架，这些框架构建于Nvidia Omniverse平台之上，更多行业现在可以开发用于可视化工业设计和工程项目的应用程序，以及用于模拟环境以构建下一波物理AI和机器人。此外，新的USD连接器将机器人和工业模拟数据格式以及开发者工具连接起来，使用户能够将大规模、完全由Nvidia RTX光线追踪的数据集流式传输到Apple Vision Pro。

简而言之，通过Nvidia NIM引入USD，通过大模型更好的理解物理世界和构建虚拟世界，这是一笔非常宝贵的数字资产。举个例子，在2019年，法国巴黎圣母院遭遇严重火灾，教堂大面积被毁。庆幸的是，育碧游戏设计师曾无数次造访这座建筑物，学习它的结构，完成了对巴黎圣母院的数字复原工作，在3A游戏《刺客信条：大革命》，重现了巴黎圣母院的所有细节，也给巴黎圣母院的修复带来很大的帮助。当时设计师和历史学家用了两年的时间来复刻，但随着该技术的推出，未来针对数字副本的重现我们可以大规模的提速，通过AI来更精细化的理解和复刻物理世界。

再比如，设计师在Omniverse中构建基础三维场景，并利用这些场景调节生成性AI，实现可控和协作的内容创作过程。比如WPP与可口可乐公司率先采用这一工作流程，来扩大其全球广告活动。

Nvidia还宣布即将推出几种新的NIM微服务，包括USD Layout、USD Smart Material和FDB Mesh Generation，以进一步提升开发者在开放USD平台上的应用能力和效率。

这次NVIDIA Research携20多篇论文参会，分享涉及推动合成数据生成器和逆渲染工具发展的创新成果，其中两篇获得了技术最佳论文奖。今年展示的研究表明，AI通过提升图像质量和解锁新的3D表示方式，使模拟能力变得更好；同时，改进的合成数据生成器和更多内容也提高了AI的水平。这些研究展示了Nvidia在AI和模拟领域的最新进展和创新。

英伟达表示，设计师和艺术家现在有了新的改进方式，通过使用基于许可数据训练的生成性AI来提高生产力。比如Shutterstock（美国图片供应商），推出了其生成性3D服务的商业测试版。它仅需使用文本或图像提示，使创作者能够快速原型化3D资产，并生成360 HDRi背景以照亮场景；以及Getty Images（美国图片交易公司）加速了其生成性AI服务，使图像生成速度加倍，提高输出质量。这些服务基于多模态生成性AI架构Nvidia Edify，通过新模型速度加倍，提升了图像质量和提示准确性，让用户能够控制相机设置，如景深或焦距。用户可以在大约六秒钟内生成四张图像，并将它们放大到4K分辨率。

03 结语

在黄仁勋出现的各大场合中，他总是穿着一袭皮衣，向世界描绘AI所带来的激动人心的未来。

我们也经历着英伟达的成长，目睹英伟达一步步从游戏GPU巨头到AI芯片霸主、再到纵横AI软硬件全栈式布局，英伟达的野心十足，在AI的技术浪潮最前沿快速迭代。

从可编程着色GPU、CUDA加速计算，到Nvidia Omniverse和生成式AI NIM微服务的推出，再到推动3D建模、机器人模拟和数字孪生技术的发展，也意味着新一轮AI产业的革新来临。

不过，随着大公司拥有更多的资源，包括资金、技术和人力，能够更快地采用和实施Nvidia NIM等先进技术。而中小企业由于资源有限，可能难以跟上技术发展的步伐。再加上人才技术水平的不同，未来是否会导致更多的技术不平等加剧？

人类之理想中的AI，是帮助人类解放双手和劳动力，带给人类更高生产力的世界。但是当生产力和生产资料被少部分人掌握的时候，会不会引发带来更深层次的一场危机？这都是我们需要思考的问题。

编辑/Somer

來源：騰訊科技
作者：李海丹

北京時間7月30日，$英偉達 (NVDA.US)$在美國丹佛市舉行的頂尖計算機圖形大會SIGGRAPH 2024上展示了在渲染、仿真和生成式AI領域的多項最新進展。

去年的SIGGRAPH，英偉達推出GH200、L40S顯卡、ChatUSD輪番登場。而今年的主角，是英偉達在生成式AI時代的新王牌——“Nvidia NIM”全新升級，並且通過NIM 將生成式 AI 應用於 USD（通用場景描述），拓寬AI在3D世界的可能性。

01 Nvidia NIM升級：既是福音，也是挑戰

英偉達宣佈，Nvidia NIM實現了進一步優化，並標準化了AI模型的複雜部署。NIM是英偉達在AI佈局中的關鍵一環。黃仁勳多次對NIM帶來的創新讚賞有佳，稱其是“AI-in-a-Box, 本質上它就是盒子裏的人工智能。”

這次升級無疑鞏固了英偉達在AI領域的領導地位，成爲其技術護城河的重要組成部分。

一直以來，CUDA被認爲是英偉達在GPU領域建立領導地位的關鍵因素。藉助CUDA的支持，GPU從單一的圖形處理器發展成爲通用的並行計算設備，使得AI開發成爲可能。不過，儘管英偉達的軟件生態系統非常豐富，但對於缺乏AI基礎開發能力的傳統行業來說，這些分散的系統仍然過於複雜和難以掌握。

爲了解決這一問題，在今年3月，英偉達在GTC大會上推出了NIM（Nvidia Inference Microservices）雲原生微服務，將過去幾年開發的所有軟件集成在一起，以簡化和加速AI應用的部署。NIM可將模型作爲優化的“容器”，這些容器可部署在雲端、數據中心或工作站上，讓開發人員能夠在幾分鐘內完成工作，比如輕鬆爲副駕駛、聊天機器人等構建生成式 AI 應用程序。

到現在，Nvidia佈局的NIM生態系統已經可提供一系列預訓練的AI模型。英偉達宣佈，幫助開發者在多個領域加速應用開發和部署，並且重點在不同的領域（如理解、數字人、三維開發、機器人技術和數字生物學）中提供的具體AI模型：

Nvidia NIM（Nvidia Inference Model）提供的服務及其具體模型

理解方向，NIM可使用Llama 3.1和NeMo Retriever，提升文本數據的處理能力；數字人方向，提供了Parakeet ASR和FastPitch HiFiGAN等模型，支持高保真語音合成和自動語音識別，爲構建虛擬助手和數字人類提供了強大的工具；

在三維開發方面，USD Code和USD Search等模型簡化三維場景的創建和操作，幫助開發者更高效地構建數字孿生和虛擬世界；

在機器人具身方向，英偉達推出了MimicGen和Robocasa模型，通過生成合成運動數據和模擬環境，加速了機器人技術的研發和應用。MimicGen NIM 可根據 Apple Vision Pro 等空間計算設備記錄的遠程操作數據，生成合成運動數據。Robocasa NIM 可在 OpenUSD (一個用於在 3D 世界中進行開發和協作的通用框架)中生成機器人任務和仿真就緒環境。

數字生物學領域的DiffDock和ESMFold等模型，則在藥物發現和蛋白質摺疊預測方面提供了先進的解決方案，推動了生物醫學研究的進展等等。

此外，Nvidia宣佈Hugging Face推理即服務平台也由Nvidia NIM提供支持，在雲端運行。

通過整合這些多功能模型，Nvidia的這種生態系統不僅提升了AI開發的效率，還提供了創新的工具和解決方案。不過，儘管Nvidia NIM的諸多升級對於行業確實是一大“福音”。但從另一面來看，也給程序員們帶來了很多挑戰。

Nvidia NIM通過提供預訓練的AI模型和標準化的API，大大簡化了AI模型的開發和部署過程，這對於開發者來說確實是一大福音，但是否也意味着普通程序員的就業機會未來或將進一步收縮？畢竟，企業可以用更少的技術人員完成同樣的工作，因爲這些任務已經由NIM預先完成，普通程序員可能不再需要進行復雜的模型訓練和調優工作。

02 教AI用3D思維進行思考，構建虛擬物理世界

英偉達在SIGGRAPH大會上也展示了生成性AI在開放USD和Omniverse平台上的應用。

英偉達宣佈，構建了世界上首個能夠理解基於 OpenUSD（Universal Scene Description 通用場景描述）語言、幾何、材料、物理和空間的生成性AI模型，並將這些模型打包爲Nvidia NIM微服務。目前，在Nvidia API目錄中有三個NIM可供預覽：USD Code，用於回答開放USD的知識問題並生成開放USD Python代碼；USD Search，允許開發者使用自然語言或圖像輸入搜索龐大的開放USD 3D和圖像數據庫；USD Validate，可檢查上傳文件與開放USD發佈版本的兼容性，並使用Omniverse雲API生成完全RTX渲染的路徑追蹤圖像。

英偉達表示，隨着Nvidia NIM微服務對OpenUSD的增強和可訪問性，未來各行各業都可以構建基於物理的虛擬世界和數字孿生。通過基於開放USD的新的生成性AI和Nvidia加速開發框架，這些框架構建於Nvidia Omniverse平台之上，更多行業現在可以開發用於可視化工業設計和工程項目的應用程序，以及用於模擬環境以構建下一波物理AI和機器人。此外，新的USD連接器將機器人和工業模擬數據格式以及開發者工具連接起來，使用戶能夠將大規模、完全由Nvidia RTX光線追蹤的數據集流式傳輸到Apple Vision Pro。

簡而言之，通過Nvidia NIM引入USD，通過大模型更好的理解物理世界和構建虛擬世界，這是一筆非常寶貴的數字資產。舉個例子，在2019年，法國巴黎聖母院遭遇嚴重火災，教堂大面積被毀。慶幸的是，育碧遊戲設計師曾無數次造訪這座建築物，學習它的結構，完成了對巴黎聖母院的數字復原工作，在3A遊戲《刺客信條：大革命》，重現了巴黎聖母院的所有細節，也給巴黎聖母院的修復帶來很大的幫助。當時設計師和歷史學家用了兩年的時間來複刻，但隨着該技術的推出，未來針對數字副本的重現我們可以大規模的提速，通過AI來更精細化的理解和復刻物理世界。

再比如，設計師在Omniverse中構建基礎三維場景，並利用這些場景調節生成性AI，實現可控和協作的內容創作過程。比如WPP與可口可樂公司率先採用這一工作流程，來擴大其全球廣告活動。

Nvidia還宣佈即將推出幾種新的NIM微服務，包括USD Layout、USD Smart Material和FDB Mesh Generation，以進一步提升開發者在開放USD平台上的應用能力和效率。

這次NVIDIA Research攜20多篇論文參會，分享涉及推動合成數據生成器和逆渲染工具發展的創新成果，其中兩篇獲得了技術最佳論文獎。今年展示的研究表明，AI通過提升圖像質量和解鎖新的3D表示方式，使模擬能力變得更好；同時，改進的合成數據生成器和更多內容也提高了AI的水平。這些研究展示了Nvidia在AI和模擬領域的最新進展和創新。

英偉達表示，設計師和藝術家現在有了新的改進方式，通過使用基於許可數據訓練的生成性AI來提高生產力。比如Shutterstock（美國圖片供應商），推出了其生成性3D服務的商業測試版。它僅需使用文本或圖像提示，使創作者能夠快速原型化3D資產，並生成360 HDRi背景以照亮場景；以及Getty Images（美國圖片交易公司）加速了其生成性AI服務，使圖像生成速度加倍，提高輸出質量。這些服務基於多模態生成性AI架構Nvidia Edify，通過新模型速度加倍，提升了圖像質量和提示準確性，讓用戶能夠控制相機設置，如景深或焦距。用戶可以在大約六秒鐘內生成四張圖像，並將它們放大到4K分辨率。

03 結語

在黃仁勳出現的各大場合中，他總是穿着一襲皮衣，向世界描繪AI所帶來的激動人心的未來。

我們也經歷着英偉達的成長，目睹英偉達一步步從遊戲GPU巨頭到AI芯片霸主、再到縱橫AI軟硬件全棧式佈局，英偉達的野心十足，在AI的技術浪潮最前沿快速迭代。

從可編程着色GPU、CUDA加速計算，到Nvidia Omniverse和生成式AI NIM微服務的推出，再到推動3D建模、機器人模擬和數字孿生技術的發展，也意味着新一輪AI產業的革新來臨。

不過，隨着大公司擁有更多的資源，包括資金、技術和人力，能夠更快地採用和實施Nvidia NIM等先進技術。而中小企業由於資源有限，可能難以跟上技術發展的步伐。再加上人才技術水平的不同，未來是否會導致更多的技術不平等加劇？

人類之理想中的AI，是幫助人類解放雙手和勞動力，帶給人類更高生產力的世界。但是當生產力和生產資料被少部分人掌握的時候，會不會引發帶來更深層次的一場危機？這都是我們需要思考的問題。

編輯/Somer

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。