NVIDIA 在國際電腦視覺與圖型識別會議利用最大的室內合成資料集推進物理 AI

NVIDIA為國際電腦視覺與圖型識別會議 (CVPR) 的年度人工智慧城市挑戰賽 (AI City Challenge) 貢獻了有史以來最大的室內合成資料集，幫助研究人員和開發人員推進智慧城市和工業自動化解決方案的開發。

這項挑戰吸引了來自近 50 個國家的 700 多個團隊，要求參與者開發人工智慧模型，以提高零售和倉庫環境以及智慧交通系統等實體環境中的營運效率。

團隊在使用NVIDIA Omniverse 產生的資料集上測試了他們的模型，NVIDIA Omniverse 是一個由應用程式介面 (API)、軟體開發套件 (SDK) 和服務組成的平台，使開發人員能夠建立基於通用場景描述 (OpenUSD) 的應用程式和工作流程。

創建和模擬大空間的數位孿生

在工廠和倉庫等大型室內空間中，日常活動涉及源源不絕的人員、小型車輛和未來的自主機器人。開發人員需要能夠觀察和測量活動、最佳化營運效率並在複雜的大規模環境中優先考慮人員安全的解決方案。

研究人員正在利用能夠感知和理解物理世界的電腦視覺模型來滿足這一需求。它可用於多攝影機追蹤等應用，在這個情況下模型追蹤於在一個環境中的多個實體。

為了確保其準確性，這些模型必須在大量真實資料集上進行訓練，以應對各種現實場景。但收集這些資料可能是一個充滿挑戰、耗時且成本高昂的過程。

人工智慧（AI）研究人員正在轉向基於物理的模擬，例如物理世界的數位孿生，以增強 AI 模擬和訓練。這些虛擬環境可以幫助生成用於訓練 AI 模型的合成資料。模擬還提供了一種在安全環境中運行大量「假設」情景的方法，同時解決隱私和 AI 偏見問題。

創建合成資料對於 AI 訓練非常重要，因為它提供了大量的、可擴展且可延伸的資料。透過改變許多參數，包括照明、物體位置、紋理和顏色，團隊可以生成多樣化的訓練資料集。

為人工智慧城市挑戰建構合成資料集

今年的人工智慧城市挑戰賽包括五場電腦視覺挑戰賽，涵蓋交通管理和工人安全。

NVIDIA 為第一個賽程「多攝影機人物追蹤」提供了資料集，該賽程的參與度最高，有超過 400 個團隊。該挑戰使用了基準測試和同類最大的合成資料集，包括 212 小時的 1080p 影片，以每秒 30 影格的速度涵跨了 90 個場景，這些場景分布在六個虛擬環境中，包括倉庫、零售店和醫院。

這些場景是在 Omniverse 中創建的，模擬了近 1,000 個攝影機，並包含約 2,500 個數位人類角色。也為研究人員提供了一種生成合適規模和高保真度資料的方法，以實現預期目標。

這些基準測試是使用 NVIDIA Isaac Sim 中的 Omniverse Replicator 創建的，這是一個參考應用程式，使開發人員能夠在基於 NVIDIA Omniverse 構建的基於物理的虛擬環境中為機器人、智慧空間或自主機器設計、模擬和訓練 AI。

Omniverse Replicator 是一個用於建立合成資料產生管道的 SDK，自動化生成高品質合成資料的許多手動任務，包括領域隨機化、相機放置和校準、角色移動以及資料語義標記和基準測試用的基準真相。

十家機構和組織與 NVIDIA 合作參加 AI 城市挑戰賽：

澳洲國立大學（Australian National University, Australia）
阿拉伯聯合大公國移動研究中心（Emirates Center for Mobility Research, UAE）
印度理工學院坎普爾校區（Indian Institute of Technology Kanpur, India）
美國愛荷華州立大學（Iowa State University, U.S.）
美國約翰霍普金斯大學（Johns Hopkins University, U.S）
台灣國立陽明交通大學
美國聖塔克拉拉大學（Santa Clara University, U.S）
阿拉伯聯合大公國大學（The United Arab Emirates University, UAE）
美國紐約州立大學奧爾巴尼分校（University at Albany – SUNY, U.S.）
日本豐田（Woven by Toyota, Japan）

推動生成物理 AI 的未來

世界各地的研究人員和公司正在開發由物理AI驅動的基礎設施自動化和機器人，這些模型可以理解指令並在現實世界中自主執行複雜的任務。

生成式物理 AI在模擬環境中使用強化學習，使用精確模擬的感測器感知世界，執行基於物理定律的動作，並接收回饋以推理下一組動作。

開發人員可以利用開發人員 SDK 和 API，例如 NVIDIA Metropolis 開發人員堆疊（其中包括多攝影機追蹤參考工作流程），為工廠、倉庫和零售營運添加增強的感知功能。借助最新版本的 NVIDIA Isaac Sim，開發人員可以在實際部署之前在基於物理的虛擬空間中模擬和訓練基於 AI 的機器人，從而增強機器人工作流程。

研究人員和開發人員亦可以將高保真、基於物理的模擬與先進的 AI 相結合，以彌合模擬訓練和實際應用之間的差距。這有助於確保合成訓練環境緊密模仿現實世界的條件，以實現更無縫的機器人部署。

NVIDIA 透過最近發布的 NVIDIA Omniverse Cloud Sensor RTX 進一步提高了模擬的準確性和規模，這是一組微服務，可實現物理上精確的感測器模擬，從而加速完全自主機器的開發。

這項技術將使無論是工廠、車輛還是機器人用的自主系統都能夠收集必要的資料，以有效地感知、導航並與現實世界互動。使用這些微服務，開發人員可以在現實的虛擬環境中對感測器感知進行大規模測試，從而顯著減少與現實世界測試相關的時間和成本。

Omniverse Cloud Sensor RTX 微服務將於今年稍後推出。註冊搶先體驗。

透過研究展示先進的人工智慧

參加者為 AI 城市挑戰賽提交了研究論文，其中一些獲得了最高排名，包括：

Overlap Suppression Clustering for Offline Multi-Camera People Tracking：本文介紹了一種追蹤方法，包括在單一攝影機視圖中識別個人、選擇清晰的影像以便於識別、對相似的外觀進行分組以及在具有挑戰性的情況下幫助澄清身份
A Robust Online Multi-Camera People Tracking System With Geometric Consistency and State-aware Re-ID Correction：這項研究提出了一種新系統，該系統使用幾何和外觀資料來提高追蹤精度，並包括調整識別特徵以修復追蹤誤差的機制。
Cluster Self-Refinement for Enhanced Online Multi-Camera People Tracking：本研究論文解決了線上追蹤中面臨的具體挑戰，例如低品質資料的儲存和身分分配中的錯誤。

所有被接受的論文都將在 6 月 17 日舉行的 2024 年AI城市挑戰賽研討會上發表。

在 CVPR 2024 上，NVIDIA研究將發表 50 多篇論文，介紹生成式物理 AI 突破及其在自動駕駛汽車開發和機器人技術等領域的潛在應用。

使用 NVIDIA Omniverse 產生用於模型模擬、測試和驗證的合成資料或環境數位孿生的論文包括：

FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects：FoundationPose 是一種用於估計和追蹤物件的 3D 位置和方向的多功能模型。該模型透過使用一些參考圖像或 3D 表示來準確地理解物件的形狀。
Neural Implicit Representation for Building Digital Twins of Unknown Articulated Objects：本研究論文提出了一種透過兩次 3D 掃描創建物件數位模型的方法，透過分析可移動部件如何在位置之間連接和移動來提高準確性。
BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation: BEHAVIOR Vision Suite 為電腦視覺研究產生可客製化的合成資料，使研究人員能夠調整照明和物體放置等設定。

了解更多有關 NVIDIA 研究在 CVPR 的資訊，以及了解更多有關 AI 城市挑戰賽的資訊。

透過免費下載標準許可證開始使用 NVIDIA Omniverse、使用 OpenUSD 資源並了解 Omniverse Enterprise 如何連結團隊。在 Instagram、Medium、LinkedIn 和 X 上關注 Omniverse。如需了解更多資訊，請加入在論壇、Discord 伺服器、Twitch 和 YouTube 頻道上的上的 Omniverse社群。