- 全新模型可實現實體 AI 的預測、可控制的世界生成與推理
- 兩種全新的 藍圖為機器人與自駕汽後期訓練提供大規模實體 AI 合成資料生成
- 1X、Agility Robotics、Figure AI、Skild AI 為早期採用者
【2025年3月18日,美國聖荷西訊】NVIDIA 今日宣布推出全新的 NVIDIA Cosmos™ 世界基礎模型 (WFM)的重大發布,為實體人工智慧(AI)開發引入開放且完全可客製化的推理模型,並提供開發人員對世界生成前所未有的控制權。
NVIDIA 還將推出兩種NVIDIA Omniverse™ 和 Cosmos 平台驅動的全新藍圖,為開發人員提供用於後期訓練機器人和自駕車的大量可控制合成資料生成引擎。
1X、 Agility Robotics、Figure AI、Foretellix、Skild AI 和 Uber 等產業領導者,均作為率先採用 Cosmos 的企業,為實體 AI 更快、大規模地生成更豐富的訓練資料。
NVIDIA 創辦人暨執行長黃仁勳表示:「正如大型語言模型徹底顛覆了生成式與代理 AI,Cosmos 世界基礎模型則是實體 AI 的重大進展。Cosmos 為實體 AI 引入了一個開放且完全可客製化的推理模型,並為機器人技術與實體產業的階躍發展開創機會。」
用於合成資料生成的 Cosmos Transfer
Cosmos Transfer WFM 擷取結構化影片輸入,例如分割圖、深度圖、光學雷射掃描、姿態估計圖和軌跡圖,以生成可控制的逼真影片輸出。
Cosmos Transfer 可精簡感知 AI 訓練,將在 Omniverse 中建立的 3D 模擬或地面事實轉換為逼真的影片,用於大規模、可控制的合成資料生成。
Agility Robotics 將是 Cosmos Transfer 和 Omniverse 的早期採用者,用於大規模合成資料生成,訓練機器人模型。
Agility Robotics 技術長 Pras Velagapudi 表示:「Cosmos 提供我們將逼真訓練資料擴展至超出我們在現實世界中收集的資料範圍的機會。我們很高興看到可以利用這個平台釋放新效能,同時充分利用我們已有的實際型模擬資料。」
用於自動駕駛汽車模擬的 NVIDIA Omniverse 藍圖利用 Cosmos Transfer 來擴大基於實體的感測器資料的變化。有了 此藍圖,Foretellix 可針對各種駕駛資料集透過改變天氣和光線等條件來增強行為場景。Parallel Domain 也在利用此藍圖將類似的變化應用於感測器模擬。
用於合成操作動作生成的 NVIDIA GR00T藍圖 結合 Omniverse 和 Cosmos Transfer以大規模生成各種資料集,並利用 OpenUSD 驅動的模擬技術,將資料收集與增強時間從數天縮短至數小時。
用於智慧世界生成的 Cosmos Predict
Cosmos Predict WFM 於 1月 的 CES 展會發表, 可以透過文字、圖像和影片等多模式輸入來生成虛擬世界狀態。全新的 Cosmos Predict 模型將實現多影格生成,在給定開始和結束輸入影像時預測中間動作或運動軌跡。這些模型專為後期訓練而打造,可利用 NVIDIA 開放提供的實體 AI 資料集進行自訂。
利用 NVIDIA Grace Blackwell NVL72 系統的推論運算能力及其大型 NVIDIA NVLink™ 網域,開發人員可實現即時世界生成。
1X 正在利用 Cosmos Predict 和 Cosmos Transfer 來訓練其全新的人形機器人 NEO Gamma。機器人大腦開發商 Skild AI 正在利用 Cosmos Transfer 增強機器人的合成資料集。此外,Nexar 和 Oxa 則正在利用 Cosmos Predict 推進自動駕駛系統。
用於實體 AI 的多模態推理
Cosmos Reason 是一款開放且完全可自訂的 WFM,具備時空感知技術,利用思維鏈推理來理解影片資料,並以自然語言預測人類踏入斑馬線或盒子從架子上掉落等互動結果。
開發人員可利用 Cosmos Reason 來改善實體 AI 資料註釋和管理、強化現有的世界基礎模型或建立新的視覺語言動作模型。他們還可以對 AI 進行後期訓練,建立高階規劃器,讓實體 AI 了解如何完成任務。
加速實體 AI 的資料管理與後期訓練 根據下游任務,開發人員可在 NVIDIA DGX™ Cloud 上使用原生 PyTorch指令碼或 NVIDIA NeMo™ 架構來對 Cosmos WFM 進行後期訓練。
Cosmos 開發人員還可以在 DGX Cloud 上使用 NVIDIA NeMo Curator,加速資料處理和管理。Linker Vision 和 Milestone Systems 正利用它來管理大量影片資料,訓練建置於 NVIDIA AI Blueprint 的視覺代理的大型視覺語言模型,用於影片搜尋和摘要。Virtual Incision 正在探索將其部署於未來的手術機器人,而 Uber 和 Waabi 則正在推進自駕車的開發。
推動負責任的 AI 與內容透明度 根據 NVIDIA 的可靠 AI 原則,NVIDIA 在所有 Cosmos WFM 上實施開放式護欄。此外,NVIDIA 正與 Google DeepMind 合作,將 SynthID 整合至浮水印,並協助識別 build.nvidia.com 上展示的 Cosmos WFM NVIDIA NIM™ 微服務的 AI 生成輸出。
上市時程 Cosmos WFMs 現已在 NVIDIA API 目錄中提供預覽,以及列於 Google Cloud 上的 Vertex AI Model Garden。 Cosmos Predict 和 Cosmos Transfer 現已在 Hugging Face 和 GitHub 上開放提供。 Cosmos Reason 已開放搶先體驗。
透過觀看 NVIDIA GTC 主題演講,以及報名參加 NVIDIA 和業界領袖在展會上的 Cosmos 演講和訓練,包括 NVIDIA 生成式 AI 研究副總裁劉洺堉的「Cosmos 世界基礎模型的介紹」。
關於NVIDIA(輝達)
NVIDIA(輝達)為加速運算領域的先驅。
NVIDIA前瞻性聲明
本新聞稿根據目前預期所做出的前瞻性聲明,包含但不限於:NVIDIA 產品、服務與技術的優勢、影響、供應情況與效能;採用 NVIDIA 產品與技術的第三方及其優勢與影響;對於機器人技術和實體產業而言,Cosmos 在階躍發展所開創的機會等。這些前瞻性聲明包含可能導致實質結果與預期不符之風險與不確定因素。多項重要因素可能導致實際結果與前瞻性聲明所示之結果出現重大差異,所及範圍有全球經濟情況;NVIDIA的產品借重第三方協力廠商之製造、組合、封裝和測試;技術發展和市場競爭之影響;發展新產品與技術或強化現有的產品及技術;NVIDIA或合作廠商的產品的市場接受度;設計、製造或軟體缺陷;消費者偏好或需求之改變;業界標準和介面之改變;整合到系統後無法預期的NVIDIA產品或效能降低之技術缺失,以及NVIDIA定期提交給美國證券交易委員會(SEC)報告中的其他詳細因素,包含但不限於Form10-K的年度報告和Form10-Q的季度報告。NVIDIA 在公司官方網站上免費提供定期提交給SEC的報告之副本。這些前瞻性聲明不保證未來的效能,只陳述目前的狀態。除非法律規定,否則NVIDIA沒有意願或義務因為新資訊、未來事件或其他理由而更新或修改任何前瞻性聲明。
©本文為NVIDIA 公司 2025版權所有,並保留所有權利。NVIDIA Cosmos、NVIDIA DGX、NVIDIA NeMo、NVIDIA NIM、NVIDIA Omniverse和NVLink 為 NVIDIA Corporation 在美國及其他國家/地區的商標及/或註冊商標。其他公司與產品名稱可能為其各自所屬公司的商標。功能、價格、供應情況與規格可能變動,恕不另行通知。