NVIDIA 開放 Cosmos 世界基礎模型給實體 AI 開發者社群使用

使用數百萬個小時的駕駛與機器人影片所訓練出的最先進模型,讓更多人可以開發實體 AI,並且以開放模型授權的方式提供
作者 Ming-Yu Liu

加速開發實體人工智慧(AI)NVIDIA Cosmos 平台推出一系列世界基礎模型,這是可以預測和產生虛擬環境未來狀態的物理感知影片神經網路,以協助開發人員打造下一代機器人和自動駕駛車。

世界基礎模型(WFM)與大型語言模型一樣都是最基本的模型。它們使用文字、圖像、影片和動作這些輸入資料來產生和模擬虛擬世界,以精準模擬場景中物體的空間關係及其實體互動的情況。

NVIDIA 今日在 CES 大會上宣布推出第一波 Cosmos WFM,用於基於物理的模擬及產生合成資料,以及最先進的標記器(tokenizer)、護欄、加速資料處理與整理管道,以及模型客製化與最佳化框架。

不論其公司規模大小,都可以在 NVIDIA 允許商業用途的寬容式開放模型授權下,讓研究人員與開發人員自由使用 Cosmos 模型。建立 AI 代理的企業也可以使用 NVIDIA 在 CES 大會上發表的全新開放式  NVIDIA Llama Nemotron 和 Cosmos Nemotron 模型

Cosmos 最先進模型的開放性,排除建立機器人與自動駕駛車技術的實體 AI 開發人員所面臨的障礙,讓各種規模的企業都能更快速地將其實體 AI 應用推向市場。開發人員可以直接使用 Cosmos 模型來產生基於物理的合成資料,也可以利用 NVIDIA NeMo 架構,針對特定的實體 AI 設定,使用自己的影片來微調模型。

機器人公司 1X、Agility Robotics 與小鵬汽車,以及自動駕駛車開發商 Uber 及 Waabi 等實體 AI 領導廠商,都已經使用 Cosmos 加速和加強模型開發作業。

開發人員可以在 NVIDIA API 目錄預覽第一批 Cosmos 自我回歸擴散模型,以及從 NVIDIA NGC 目錄Hugging Face 下載一系列模型和微調框架。

實體 AI 的世界基礎模型

Cosmos 世界基礎模型是一套開放式擴散和自我回歸 transformer 模型,用於產生物理感知影片內容。使用 2,000 萬個小時現實世界人類互動、環境、工業、機器人和駕駛資料的 9,000 兆個詞元來訓練這些模型。

此模型有三個類別:Nano 適用於針對即時、低延遲推論與邊緣部署進行最佳化的模型;Super 適用於高效能基準模型;Ultra 適用於最高品質與真實度,最適合用於提取客製化模型。

搭配 NVIDIA Omniverse 3D 輸出內容使用時,擴散模型會產生可控制的高品質合成影片資料,以開始訓練機器人與自動駕駛車感知模型。自我回歸模型會根據輸入畫面和文字預測影片畫面序列中的下一個畫面。這樣就能即時預測下一個詞元,讓實體 AI 模型能夠預測它的下一個最佳動作。

開發人員可以使用 Cosmos 的開放模型來產生文字到世界和影片到世界的內容。擴散模型與自我回歸模型的版本各擁有 40 億到 140 億個參數,現在在 NGC 目錄與 Hugging Face 開放使用。

還有 120 億個參數的上採樣模型,用於細化文字提示;70 億個參數的影片解碼器,針對擴增實境進行最佳化;以及護欄以確保安全、負責任的使用 AI。

NVIDIA 也推出針對垂直應用的微調模型樣本,例如為自動駕駛車生成多感測器視角,以展示客製化的機會。

推動機器人及自動駕駛車技術的應用

Cosmos 世界基礎模型能夠產生合成資料以增強訓練資料集、先行模擬以在真實世界部署前對實體 AI 模型進行測試與除錯,以及在虛擬環境中進行強化學習以加速 AI 代理學習

開發人員可以使用 NVIDIA Omniverse 的 3D 合成場景來訓練 Cosmos,產生大量可控制、基於物理的合成資料。

從自駕車開始為實體世界開創生成式 AI 的 Waabi,正在評估使用 Cosmos 搜尋和整理影片資料,用於開發和模擬自動駕駛車軟體。這將進一步加速公司以業界領先的方式推動安全性的發展。該公司利用 Waabi World 這個生成式 AI 模擬器創建任何車輛可能遇到的情境,並以與真實世界相同的真實感呈現。

開發機器人的 WFM 可以產生合成的虛擬環境或世界,為機器人學習提供成本更低、更有效率且可控制的空間。體現 AI 新創公司 Hillbot 使用 Cosmos 來產生 TB 等級真實感十足的 3D 環境,以增強其資料管道。這些由 AI 產生的資料將有助於該公司完善其機器人訓練與操作,讓機器人更快、更有效率地學習各項技能,以及提高執行工業與家庭任務的表現。

這兩個產業的開發人員都可以使用 NVIDIA Omniverse 與 Cosmos 做為多重宇宙模擬引擎,讓實體 AI 策略模型模擬未來執行特定任務時可能採取的每個路徑,這反過來又能幫助模型從這些路徑中選擇最佳路徑。

Cosmos 模型整理資料和訓練必須依賴 NVIDIA DGX Cloud 平台上的數千個 NVIDIA GPU,而 NVIDIA DGX Cloud 是一個高效能、完全託管的 AI 平台,可在各大雲端環境提供加速運算叢集。

採用 Cosmos 的開發人員可以使用 DGX Cloud 輕鬆部署 Cosmos 模型,並且透過 NVIDIA AI Enterprise 軟體平台提供更多支援。

使用 NVIDIA Cosmos 進行客製化與部署

除了基礎模型之外,Cosmos 平台還有由 NVIDIA NeMo Curator 支援的資料處理與整理管道,並且針對 NVIDIA 資料中心 GPU 進行最佳化。

機器人與自動駕車開發人員收集數百萬或數十億小時的真實世界影片畫面,產生出 PB 等級的大量資料。Cosmos 讓使用 NVIDIA Hopper GPU 的開發人員,只要 40 天就能處理完 2,000 萬個小時的資料,而使用 NVIDIA Blackwell GPU 的話更只要 14 天。如果使用在 CPU 系統上執行的未最佳化管道作業,且功耗相當,則處理相同數量的資料則要三年以上的時間。

此平台還擁有一套功能強大的影片和圖像標記器,可以用不同的影片壓縮比將影片轉換為標記,用於訓練各種 transformer 模型

Cosmos 標記器的總壓縮率比最先進的方法高出 8 倍,處理速度高出 12 倍,在訓練和推論方面都能提供優異品質與降低運算成本。開發人員可以在 Hugging FaceGitHub 取得這些以 NVIDIA 開放模型授權提供的標記器。

使用 Cosmos 的開發人員也能利用 NeMo 框架提供的模型訓練與微調功能,NeMo 框架是一個 GPU 加速框架,能夠以高處理量的方式來訓練 AI。

開發安全、負責任的 AI 模型

Cosmos現已根據 NVIDIA 開放模型授權協議提供給開發人員使用。Cosmos在開發的過程中遵照 NVIDIA 值得信賴的 AI 原則,包括公平性、隱私性、安全、保障與公開透明度。

Cosmos 平台包含一套專用的 Cosmos Guardrails 模型,它除了其他功能,還能在預先處理過程中減緩有害的文字與圖像輸入,並且在後製處理過程中篩選所產生的影片內容以確保安全性。開發人員可針對自訂應用進一步強化這些防護措施。

NVIDIA API 目錄上的 Cosmos 模型另有內建浮水印系統,能夠發現 AI 產生的連續畫面。

NVIDIA Cosmos 由 NVIDIA Research 開發。請閱讀研究論文《Cosmos World Foundation Model Platform for Physical AI》,以瞭解更多關於模型開發與基準測試的詳細資訊。在 Hugging Face 有提供其他資訊的模型卡。

在 1 月 7 日播出的 AI Podcast 節目中,NVIDIA 研究部門副總裁 Ming-Yu Liu 將介紹更多關於世界基礎模型的資訊。

開始使用 NVIDIA Cosmos 並參加 NVIDIA 在 CES 大會的各項活動

請見有關軟體產品資訊的通知