NVIDIA 透過新的 AI 和模擬工具推進機器人學習和人形機器人開發

作者 Spencer Huang

機器人開發人員可以利用 NVIDIA 本週在德國慕尼黑舉行的機器人學習大會(CoRL)上公佈的全新人工智慧(AI)和模擬工具及工作流程,大大加快開發人形機器人等 AI 驅動的機器人的工作。

這項產品陣容包括 NVIDIA Isaac Lab 機器人學習框架的正式推出;六個專為 GR00T 專案設計的人形機器人學習工作流程,這是一項加速人形機器人開發的計劃;以及用於影片資料管理和處理的新型世界模型開發工具,包括用於影片處理的 NVIDIA Cosmos tokenizerNVIDIA NeMo Curator

開源的 Cosmos tokenizer(標記器)透過將影像和影片分解為極高壓縮率的高品質標記,為機器人開發人員提供卓越的視覺標記功能。它的運行速度比目前標記器快 12 倍,而 NeMo Curator 提供的影像處理管理速度比未優化的處理流程快 7 倍。

NVIDIA 還在 CoRL 期間發表了 23 篇論文並舉辦了 9 場與機器人學習相關的工作坊,並發布了針對開發者的訓練和工作流程指南。此外,Hugging Face 和 NVIDIA 宣布合作,將透過 LeRobot、NVIDIA Isaac Lab 和 NVIDIA Jetson 來為開發者社群加速開源機器人研究加速開源機器人研究。

Isaac Lab 加速機器人開發

NVIDIA Isaac Lab 是一個基於 NVIDIA Omniverse 的開源機器人學習框架,該平台用於開發 OpenUSD 應用,以實現產業數位化和實體 AI 模擬。

開發者可以利用 Isaac Lab 來大規模訓練機器人策略。這個開源的統一機器人學習框架適用於任何形態的機器人——從人形機器人到四足機器人以及協作機器人——以應對日益複雜的動作和互動。

全球領先的商業機器人製造商、機器人應用開發者及機器人研究機構都在採用 Isaac Lab,其中包括 1X、Agility Robotics、The AI Institute、Berkeley Humanoid波士頓動力(Boston Dynamics)Field AI、Fourier、Galbot、Mentee Robotics、Skild AI、Swiss-Mile、Unitree Robotics 和小鵬機器人。

GR00T 專案:通用人形機器人的基礎

建構先進的人形機器人極其困難,需要多層技術和跨學科方法來使機器人有效地感知、移動和學習技能,以實現人機互動和機器人環境互動。

GR00T 專案是一項開發加速函式庫、基礎模型和資料管道的計劃,旨在加速全球人形機器人開發者生態系統。

六個新的 GR00T 專案工作流程為人形機器人開發人員提供了實現最具挑戰性人形機器人功能的藍圖。它們包括:

  • GR00T-Gen 用於建構生成式 AI 驅動、基於 OpenUSD 的 3D 環境
  • GR00T-Mimic用於機器人運動和軌跡生成
  • GR00T-Dexterity 實現機器人靈巧操控
  • GR00T-Control 用於全身控制
  • GR00T-Mobility 用於機器人運動和導航
  • GR00T-Perception 用於多模態感測

NVIDIA 實體人工智慧資深研究經理 Jim Fan 表示:「人形機器人是實體 AI 的下一波浪潮。NVIDIA 的研究和工程團隊正在公司內部以及與我們的開發者生態系合作,構建 GR00T 專案,以幫助推動全球人形機器人開發者的進步和發展。」

世界模型構建者的新開發工具

如今,機器人開發者正在構建世界模型:這是 AI 表現世界的方式,能夠預測物體和環境對機器人行動反應。建立這些世界模型需要大量的運算和資料密集型工作,模型需要數千小時的真實世界、精選圖像或影片資料。

NVIDIA Cosmos 標記器提供高效、高品質的編碼和解碼,簡化了這些世界模型的開發過程。它們樹立了最低失真和時間不穩定性的全新標準,實現了高品質的影像和影片重建。

Cosmos 標記器提供高品質的壓縮和高達 12 倍的快速視覺重建,為各種視覺領域的可擴展、穩健和高效的生成式應用開發創造了條件。

人形機器人公司 1X 已更新 1X 世界模型挑戰資料集,以使用 Cosmos 標記器。

1X Technologies 的 AI 副總裁 Eric Jang 表示:「NVIDIA Cosmos 標記器在保持視覺真實度的同時,實現了資料高時間和空間的壓縮,這使我們能以更高的運算效率訓練具有長視野影片生成的模型。」

其他人形和通用機器人開發者,包括小鵬機器人和 Hillbot,也在使用 NVIDIA Cosmos 標記器來管理高解析度的圖像和影片。

NeMo Curator 現在包括一個影片處理管道,使機器人開發者能夠提高其世界模型在處理大規模文本、圖像和影片數據時的準確性。

由於影片資料規模龐大,管理影片資料帶來了挑戰,需要可擴展的管道和高效的編排以實現跨 GPU 的負載平衡。此外,過濾、字幕和嵌入的模型需要優化,以最大限度地提高吞吐量。

NeMo Curator 透過自動管道編排簡化資料管理,從而大幅縮短處理時間,從而克服了這些挑戰。它支援跨多節點多 GPU 系統的線性擴展,有效處理超過 100 PB 的資料。這簡化了 AI 開發、降低了成本並加快了上市時間。

CoRL 推進機器人學習社群

NVIDIA 機器人研究團隊在 CoRL 期間發表了20多篇論文,涵蓋了在整合視覺語言模型以改善環境理解和任務執行、時間機器人導航、為複雜的多步任務開發長期規劃策略以及利用人類示範進行技能習得等方面的突破。

人形機器人控制和合成資料生成的開創性論文包括 SkillGen(一個基於合成資料生成的系統,用於以最少的人類演示訓練機器人)和 HOVER(一種用於控制人形機器人運動和操作的機器人基礎模型)。

NVIDIA 研究人員也將參加本次會議的九個研討會。了解有關完整活動日程的更多資訊

上市時間

NVIDIA Isaac Lab 1.2 現已推出,並在 GitHub 上開源。 NVIDIA Cosmos 標記器現已在 GitHub  和 Hugging Face上提供。用於影片處理的 NeMo Curator 將於本月底推出。

新的 NVIDIA GR00T 專案工作流程即將推出,以幫助機器人公司更輕鬆地建立人形機器人功能。在 NVIDIA 技術部落格上了解更多有關工作流程的資訊。

對於學習使用 Isaac Lab 的研究人員和開發人員,現在可以使用新的開發人員入門指南和教程,包括 Isaac Gym 到 Isaac Lab 的轉移指南

在我們即將於 11 月 13 日舉行的直播中了解機器人學習和模擬的最新動態,並可於 NVIDIA Isaac 實驗室辦公時間以獲得實用的支援和見解。

開發者可以申請加入 NVIDIA 人形機器人開發者計劃