全球研究人員皆仰賴開源技術作為其工作基礎。為了讓該社群具備最新的數位和物理人工智慧(AI)能力,NVIDIA正持續擴展其開放式AI模型、資料集和工具庫組合,而這些資源可應用於幾近所有研究領域。
在世界頂尖AI會議之一的NeurIPS上,NVIDIA發布開放式的物理AI模型和工具來支援相關研究,其中包括全球首款專為自動駕駛設計的產業級開放式推理視覺語言動作(VLA)模型Alpamayo-R1。在數位AI領域,NVIDIA也將同步釋出用於語音與AI安全的全新模型及資料集。
NVIDIA研究人員將在本次大會上發表超過70篇論文、舉辦演講和研討會,分享涵蓋AI推理、醫學研究、自駕車(AV)開發等領域的創新專案。
這些計畫深化了NVIDIA對開源的承諾,同時更獲得AI基準測試機構Artificial Analysis最新發布的Openness Index認可。該指數根據模型授權的合法性、資料透明度和技術細節的可用性,將NVIDIA Nemotron系列用於頂尖AI開發的開放技術,評為AI生態系中最開放的技術之一。

NVIDIA DRIVE Alpamayo-R1 開啟自動駕駛研究新篇章
NVIDIA DRIVE Alpamayo-R1(AR1)是全球首款用於自動駕駛研究的開放式推理視覺語言動作(VLA)模型,該模型將思維鏈(chain-of-thought)AI推理與路徑規劃相結合。路徑規劃是提升自駕車在複雜道路場景中的安全性,並實現Level 4自動駕駛的關鍵要素。
以往的自動駕駛模型在處理行人密集的十字路口、即將出現的封閉車道或自行車道上的併排停車等複雜場景時,經常面臨困境。推理技術賦予自駕車類似於人類駕駛的常識判斷能力。
AR1 透過分解場景並逐步進行推理來實現這一點,透過評估所有場景發展可能,再運用情境資料選擇最佳路線。
舉例而言,透過AR1實現的思維鏈推理,自駕車行經行人密集區且鄰近自行車道時,車輛得以即時整合路徑資料、納入推理軌跡作為採取特定行動的決策依據,進而規劃後續路徑,例如遠離自行車道或為可能違規穿越馬路的行人預作停車準備。
基於NVIDIA Cosmos Reason的AR1開放型基礎,讓研究人員可以根據自身的非商業用途客製化模型,無論是用於基準測試,或是建立實驗性的自動駕駛應用。
對於後訓練的AR1,強化學習已被證明特別有效。研究人員觀察到,與預訓練模型相比,AR1的推理能力顯著提升。
NVIDIA DRIVE Alpamayo-R1模型將發布於GitHub與Hugging Face,其用於訓練和評估該模型的資料子集亦發布於NVIDIA Physical AI Open Dataset。NVIDIA也發布開源的AlpaSim框架,用於評估AR1。
了解更多用於自動駕駛的推理視覺語言動作模型相關資訊。
為任何物理AI應用場景客製化NVIDIA Cosmos
開發人員可以透過Cosmos Cookbook中提供的逐步教學、快速入門推論範例和進階後訓練工作流程,學習如何使用基於Cosmos的模型並進行後訓練。這份指南專為物理AI開發人員打造,涵蓋AI開發的每個環節,包括資料整理、合成資料生成與模型評估。
基於Cosmos的應用將擁有無限的可能性。NVIDIA的最新應用範例包括:
- LidarGen,全球首個能夠為自動駕駛(AV)模擬產生光學雷達資料的世界模型。
- Omniverse NuRec Fixer,用於自動駕駛和機器人模擬的模型,該模型透過NVIDIA Cosmos Predict近乎即時地修正神經重建資料中的瑕疵,例如來自新視角或雜訊資料的模糊和缺損。
- Cosmos Policy,一個將大型預訓練影片模型轉換為健全機器人策略(policy)的框架。此策略是一組用於規範機器人行為的規則。
- ProtoMotions3,基於NVIDIA Newton和Isaac Lab打造的開源、GPU加速框架,用於訓練物理模擬的數位人類和人形機器人,其訓練的逼真場景由Cosmos世界基礎模型(WFM)生成。

策略模型可以在NVIDIA Isaac Lab與Isaac Sim中進行訓練,而從策略模型生成的資料能夠進一步用於對NVIDIA GR00T N機器人模型進行後訓練。

NVIDIA生態系合作夥伴正運用Cosmos世界基礎模型開發最新技術。
自駕車開發商Voxel51正為Cosmos Cookbook貢獻模型配方。物理AI開發商1X、Figure AI、Foretellix、Gatik、Oxa、PlusAI和X-Humanoid皆運用世界基礎模型開發最新物理AI應用。此外,蘇黎世聯邦理工學院(ETH Zurich)的研究人員也將在NeurIPS大會上發表一篇論文,重點介紹如何使用Cosmos模型創建逼真且連貫的3D場景。
NVIDIA Nemotron新增功能強化數位AI開發人員工具組
NVIDIA 同時推出多重發言者語音AI模型、具備推理能力及AI安全資料集的新模型,以及用於生成高品質合成資料集,來強化學習和特定領域模型客製化的開放工具。這些工具包括:
- MultiTalker Parakeet:用於串流音訊的自動語音辨識模型,即使在對話重疊或語速很快的情況下,也能理解多位發言者。
- Sortformer:能夠即時準確地區分音訊串流中多個說話者,亦稱為自動分段標記(diarization)的先進模型。
- Nemotron Content Safety Reasoning:基於推理的AI安全模型,可在跨領域動態執行客製化策略。
- Nemotron Content Safety Audio Dataset:用於訓練模型以偵測不安全音訊內容的合成資料集,實現跨文字和音訊模態的安全防護機制開發。
- NeMo Gym:一個開源函式庫,可加速並簡化為大型語言模型訓練開發的強化學習環境。NeMo Gym同時收錄日益擴展的即用型訓練環境集合,以支援基於可驗證獎勵的強化學習(RLVR)。
- NeMo Data Designer Library:該函式庫現已採用Apache 2.0授權開源,並提供端到端解決方案,用於生成、驗證及最佳化生成式AI所需的高品質合成資料集,包含特定領域的模型客製化與評估。
CrowdStrike、Palantir和ServiceNow等NVIDIA生態系合作夥伴正在使用NVIDIA Nemotron和NeMo工具建立安全、專業的代理型AI。
NeurIPS大會的與會者可於美西時間12月1日下午4點至8點舉行的Nemotron Summit上探索這些創新成果,NVIDIA深度學習應用研究副總裁Bryan Catanzaro將發表開幕演說。
NVIDIA研究團隊推動語言AI創新
NVIDIA在NeurIPS大會上發表了數十篇研究論文,以下為幾篇聚焦語言模型發展的亮點成果:
- Audio Flamingo 3: Advancing Audio Intelligence With Fully Open Large Audio Language Models:這款大型音訊語言模型能夠對語音、聲音和音樂進行推理。它可以理解和推理長達10分鐘的音訊片段,並在20多個基準測試中取得最先進的結果。
- Minitron-SSM: Efficient Hybrid Language Model Compression Through Group-Aware SSM Pruning:該研究介紹一種能壓縮混合模型的剪枝方法,透過剪枝與蒸餾將Nemotron-H 8B模型參數由80億壓縮至40億。最終產出模型的準確率不僅超越同等規模的模型,同時推理輸送量速度也提高至2倍。
- Jet-Nemotron: Efficient Language Model With Post Neural Architecture Search:這項研究提出一套高成本效益的後訓練流程,用於開發新型高效語言模型架構,並介紹利用該流程生成的混合架構模型系列。這些模型在實現生成輸送量顯著提高的同時,其準確率與頂尖的全注意力基線(full-attention baseline)模型相當,甚至更高。
- Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models:本專案提出全新的小型語言模型(SLM)架構,以實際應用中的延遲而非參數數量為核心進行重新設計,實現頂尖的速度與準確率。
- ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models:長時間強化學習(ProRL)是延長模型訓練時間周期的技術。在NeurIPS大會發表的研究成果中,NVIDIA研究人員闡述此方法如何使模型在推理能力上始終超越基礎模型。
查看NeurIPS的完整活動列表,大會將於美國聖地牙哥舉行至12月7日(星期日)。
軟體產品資訊請參閱相關公告。