AI 工廠廣泛採用的推論作業系統 NVIDIA Dynamo 正式用於生產級部署

NVIDIA Dynamo 1.0為大規模推理提供了生產級的開源基礎平台。
Dynamo 與 NVIDIA TensorRT-LLM 的最佳化功能可原生整合至 LangChain、llm-d、LMCache、SGLang 與 vLLM 等開源框架中，以有效提升推論效能。
Dynamo 以免費的開源軟體，將 NVIDIA Blackwell GPU 的推論效能提升最高達 7 倍，不僅降低處理詞元的成本，更為數百萬顆 GPU 創造更多的營收機會。
NVIDIA 推論平台已獲得多家雲端服務供應商整合，包括 Amazon Web Services（AWS）、Microsoft Azure、Google Cloud 與 Oracle Cloud Infrastructure（OCI）；以及 NVIDIA 雲端合作夥伴 Alibaba Cloud、CoreWeave、Together AI 與 Nebius，同時也獲得AI 原生公司 Cursor 與 Perplexity、推論端點服務供應商 Baseten、Deep Infra 與 Fireworks，以及全球企業字節跳動、美團、PayPal 與 Pinterest 採用。

【2026年3月16日，美國聖荷西訊】NVIDIA 今日宣布推出專為大規模生成式與代理型 AI 推論設計的開源軟體 NVIDIA Dynamo 1.0，且已獲全球廣泛採用。結合 NVIDIA Blackwell 平台，Dynamo 1.0 使雲端服務供應商、AI 創新公司與全球企業能以優異的規模、效率及速度，提供高效能 AI 推論。

隨著代理型 AI 系統在各產業逐步投入生產，在資料中心內擴展推論能力，已成為一項資源調度的複雜挑戰。不同大小與模態的請求，以及各種效能目標，會以不可預測的突發方式出現。

正如電腦作業系統負責協調硬體與應用程式一樣，Dynamo 1.0 扮演 AI 工廠的分散式「作業系統」，可在順暢協調整個叢集間的 GPU 和記憶體資源，驅動複雜的 AI 工作負載。在近期的業界基準測試中，Dynamo 透過免費的開源軟體，將 NVIDIA Blackwell GPU 的推論效能提升最高 7 倍，不僅降低了處理每個詞元的成本，更為數百萬顆 GPU 創造更多的營收機會。

NVIDIA 創辦人暨執行長黃仁勳表示：「推論是智慧的引擎，驅動每次查詢、每個代理，以及每個應用程式。有了 NVIDIA Dynamo，我們打造了史上第一個專為 AI 工廠而生的『作業系統』。在我們整個生態系中的快速採用，顯示這波新的代理型 AI 浪潮已經到來，而 NVIDIA 正在以全球規模為大家提供運算動力。」

Dynamo 1.0 透過加入更智慧的「流量控制」機制，以及在 GPU 與較低成本儲存之間移動資料的能力，將推論工作分配到多個 GPU 上，從而減少無效運算並緩解記憶體限制。對於代理型 AI 與長提示，Dynamo 可將請求路由至已經保有先前步驟中最相關「短期記憶」的 GPU，並在不需要時將這些記憶卸載。

NVIDIA 推論平台發展強勁

NVIDIA 正透過將 Dynamo 與 NVIDIA TensorRT™-LLM 函式庫的最佳化技術整合至 LangChain、llm-d、LMCache、SGLang、vLLM 等供應商的熱門架構，加速開源生態系的發展。Dynamo 的核心組件也可作為獨立模組提供，例如用於更智慧地管理記憶體的 KVBM、用於高速 GPU 對 GPU 資料傳輸的 NVIDIA NIXL，以及用於簡化系統擴展的 NVIDIA Grove。NVIDIA 亦將 TensorRT-LLM 的 CUDA® 核心貢獻給 FlashInfer 專案，使其能原生整合至開源架構中。

NVIDIA 推論平台已在整個 AI 生態系中獲得支援，包括：

雲端服務供應商：Amazon Web Services（AWS）、Microsoft Azure、Google Cloud、OCI
NVIDIA 雲端合作夥伴：Alibaba Cloud、CoreWeave、Crusoe、DigitalOcean、Gcore、GMI Cloud、Lightning AI、Nebius、Nscale、Together AI、Vultr
AI 原生公司：Cursor、Hebbia、Perplexity
推論端點服務供應商：Baseten、Deep Infra、Fireworks
全球企業：AstraZeneca、BlackRock、字節跳動、Coupang、Instacart、美團、PayPal、Pinterest、蝦皮購物、軟銀集團

CoreWeave 產品與工程執行副總裁 Chen Goldberg 表示：「隨著 AI 從實驗性試點階段轉向持續且大規模的生產環境，底層基礎架構必須與其所支援的模型同樣靈活。支援 NVIDIA Dynamo讓我們能為部署複雜的 AI 代理提供更順暢且具韌性的環境。這個基礎架構提供了所需的耐久性與高效能資源協調能力，讓業界最具野心的代理型工作負載得以進入全球量產。」

Nebius 技術長 Danila Shtan 表示：「要在大規模環境下提供可靠的 AI 推論，不僅需要強大的 GPU，還要能將這些效能轉化為實際客戶成果的軟體。我們高度重視 NVIDIA 從 Dynamo 到 TensorRT-LLM 的軟體堆疊，如何帶來深度最佳化、可預測的效能，以及更快速的部署時間，幫助我們為客戶提供更簡單且更高效能的生產級 AI 部署路徑。」

Pinterest 技術長 Matt Madrigal 表示：「要為數億名使用者提供直覺化的多模態 AI 體驗，就必須在全球規模下提供即時智慧。作為開源領域的重要採用者，我們致力於建構可擴展的 AI 技術。透過 NVIDIA Dynamo 來最佳化我們的部署，我們正進一步擴展順暢且個人化的使用體驗，而這一切都由高效能 AI 基礎架構所驅動。」

Together AI 共同創辦人暨執行長 Vipul Ved Prakash 指出：「AI 原生企業需要能夠可靠且高效地跟隨應用程式需求進行擴展的推理能力。NVIDIA Dynamo 1.0 結合 Together AI 的尖端推論研究，讓我們能提供高效能技術堆疊，為大規模生產工作負載，提供加速且具成本效益的推論能力。」

Dynamo 1.0 現已向全球開發人員開放。如欲了解更多資訊並開始使用，歡迎閱讀部落格文章，並造訪 Dynamo 專屬頁面。

觀看黃仁勳在 GTC 的主題演講，並探索相關會議內容。

關於 NVIDIA
NVIDIA（輝達）為加速運算領域的先驅。

NVIDIA前瞻性聲明
本新聞稿根據目前預期所做出的前瞻性聲明，包含但不限於：NVIDIA 產品、服務和技術的優勢、影響、效能與可用性；對 NVIDIA 第三方安排的期望，包括對其協作夥伴與合作夥伴的期望；對技術開發的期望；以及其他非歷史事實的前瞻性聲明，依據修訂後的 1933 年《證券法》第 27A 條，以及修訂後的 1934 年《證券交易法》第 21E 條規定，這些聲明係根據管理階層的信念與假設，以及管理階層目前可取得的資訊，並受這些條款所制定的「安全港」約束，同時面臨各種風險與不確定性，實際結果可能與預期落差極大。可能導致實際結果差異極大的重要因素包括：全球經濟狀況與政局；NVIDIA 對第三方製造、組裝、封裝與測試 NVIDIA 產品的依賴；技術發展與競爭的影響；新產品與技術開發，或是對 NVIDIA 現有產品與技術的改良；NVIDIA 產品或 NVIDIA 合作夥伴產品的市場接受度；設計、製造或軟體瑕疵；消費者喜好或需求變動；產業標準與介面改變；NVIDIA 的產品或技術整合至系統時，發生意外的效能損失；適用法律與法規改變，以及 NVIDIA 不定時向證券交易委員會（SEC）呈報之最新報告中詳述的其他因素，包括但不限於 Form 10-K 年度報告和 Form 10-Q 季度報告詳述的因素。向 SEC 呈報的報告複本已在公司網站發布，可以向 NVIDIA 免費索取。這些前瞻性聲明不保證未來效能，且僅反映本文發布日期的情況，而且除法律規定，NVIDIA 不承擔任何義務，無須為反映未來事件或情況而更新這些前瞻性聲明。