公開的秘密:NVIDIA Nemotron 模型、資料集和技術如何推動 AI 發展

Nemotron 開放原始碼技術集合讓開發人員和企業能夠打造強大的通用和專用智慧。
作者 Bryan Catanzaro

開放技術供開發人員和企業採用、修改和創新,伴隨著每一次重大科技變革,從網際網路誕生到雲端運算的早期都是如此。AI 應遵循相同的模式。

因此,NVIDIA Nemotron 系列多模態 AI 模型、資料集和技術皆開放取用。Nemotron 可用於研究和商業用途,從個人電腦到企業級系統皆可,為建立 AI 應用程式提供開放基礎。開發人員可以在 GitHubHugging FaceOpenRouter 上開始使用。

Nemotron 讓開發人員、新創公司和任何規模的企業都能使用以透明的開放原始碼訓練資料訓練的模型。它提供的工具可加快每個開發階段,從客製到部署。

此技術透明化,讓採用者可理解模型的運作方式並信任其提供的結果。

Nemotron 具備通用智慧和代理式 AI 推理能力,並且可適應專用 AI 使用案例,目前已被製造、醫療、教育、零售等產業的 AI 創新者和領導者普遍採用。

NVIDIA Nemotron 是什麼?

NVIDIA Nemotron 是為了提高 AI 開發各階段的效率而設計的開放原始碼 AI 技術集合。其包括:

  • 多模態模型:以開放檢查點形式提供之最先進的 AI 模型,擅長研究生程度的科學推理、進階數學、程式編寫、指令遵循、工具呼叫和視覺推理。
  • 預訓練、後訓練和多模態資料集:經過仔細挑選的文字、圖片和影片資料集合,向 AI 模型傳授技能,包括語言、數學和問題解決。
  • 數值精度演算法和配方:先進的精度技術,讓 AI 以更快的速度和更低的成本運作,同時確保答案準確。
  • GPU 叢集上有效率地擴大訓練規模的系統軟體:最佳化軟體和框架,可以為最大的模型加快在 NVIDIA GPU 上的大規模訓練和推論
  • 後訓練方法和軟體:微調步驟使 AI 變得更聰明、更安全以及更擅長特定工作

NVIDIA 致力於為私部門和公部門的開發人員、產業領導者和 AI 基礎設施建設者提供開放、透明且可適應的 AI 平台,而 Nemotron 是其中的一部分。

通用智慧與專用智慧之間的差異為何?

NVIDIA 打造 Nemotron 的目的是提高通用智慧能力 (包括 AI 推理) 的標準,同時加快專業化,以協助全球企業採用 AI 克服產業的特定挑戰。

通用智慧是指使用大量公開資料集訓練的模型,可執行各種任務。它是廣泛的問題解決和推理任務所需的引擎。專用智慧則學習產業或組織特有的語言、流程和優先事項,讓 AI 模型能夠適應特定的真實世界應用。

若要在各行各業大規模導入 AI,兩者缺一不可。

因此,Nemotron 提供最佳化各種運算平台的預訓練基礎模型,以及 NVIDIA NeMoNVIDIA Dynamo 等工具,將通用 AI 模型轉變為針對專用智慧量身打造的自訂模型。

收聽本集的 NVIDIA AI Podcast,瞭解 Nemotron 等開放模型如何推動 AI 進步:

開發人員和企業如何使用 Nemotron

NVIDIA 打造 Nemotron 以加快全世界開發人員的工作效率,並為未來 AI 系統的設計提供參考。

從研究人員到新創公司和全球企業,開發人員都需要靈活、可信任的 AI。Nemotron 為幾乎任何領域提供建構、自訂和整合 AI 所需的工具。

  • CrowdStrike 將適用於資安團隊的 Charlotte AI AgentWorks 無程式碼平台與 Nemotron 進行整合,協助強化和保護代理生態系統。此次合作重新定義了資安營運,讓分析師可以大規模建構和部署專用 AI 代理程式,以利用 Nemotron 模型可靠的企業級安全性。
  • DataRobot 使用 Nemotron 做為開放基礎,在與 NVIDIA 共同開發的 Agent Workforce Platform 解決方案,在地端、混合與多雲端環境中,建立、運作和治理功能齊全的 AI 代理勞動力中,大規模訓練、客製和管理 AI 代理程式。
  • ServiceNow 在今年稍早與 NVIDIA 合作推出 Apriel Nemotron 15B 模型。這是使用兩家公司的資料進行後訓練的模型,專為即時工作流程執行而打造,並以更精簡的大小提供先進推理,因此更快速、更有效率且更具成本效益。
  • UK-LLM,由倫敦大學學院主導的主權 AI 計畫,使用 Nemotron 開放原始碼技術和資料集開發適用於英語及威爾斯語的 AI 推理模型。

NVIDIA 也利用從開發 Nemotron 的過程中獲得的洞見為次世代系統設計提供參考,包括 Grace Blackwell、Vera Rubin 和 Feynman。AI 模型的最新創新,包括降低精度、稀疏算術、新的注意力機制和最佳化演算法,全都塑造 GPU 架構。

例如,透過 Nemotron 開發的 NVFP4 是一種在大型語言模型 (LLM) 訓練過程中,每一個參數僅使用四位元之新的資料格式。此進步大幅降低能耗,正在影響未來 NVIDIA 系統的設計。

NVIDIA 也利用由更廣大的 AI 社群打造的開放技術來改進 Nemotron。

  • 阿里巴巴的 Qwen 開放模型提供資料擴增,改善 Nemotron 的預訓練和後訓練資料集。最新的 Qwen3-Next 架構突破了長脈絡 AI 的極限,該模型利用了 NVIDIA 研究和 MIT 的閘控增量網路
  • DeepSeek R1 是 AI 推理的先驅,促成開發出可以教導模型如何思考的 Nemotron 數學、程式碼和推理開放資料集
  • OpenAI 的 gpt-oss 開放權重模型展現驚人的推理、數學和工具呼叫能力,包括可調整推理設定,可用來加強 Nemotron 後訓練資料集。
  • Meta 的 Llama 開放模型集合是 Llama-Nemotron 的基礎,而 Llama-Nemotron 是一種使用 Nemotron 資料集和配方,增加先進推理能力之開放的模型系列。

使用 Hugging Face 上的 NVIDIA Nemotron 模型和資料,開始訓練與客製 AI 模型及代理程式,或在 OpenRouter 上免費試用模型。使用 NVIDIA RTX PC 的開發人員可以透過 llama.cpp 框架存取 Nemotron。

訂閱 NVIDIA 開發人員新聞加入開發人員社群並在 LinkedInInstagramX Facebook 上關注 NVIDIA AI,以掌握代理式 AI、Nemotron 等技術的最新資訊。