AWS、Google、Microsoft 與 OCI 皆透過 NVIDIA Dynamo 提升雲端客戶的 AI 推論效能

Dynamo 與主要雲端服務供應商整合,並支援全新 Kubernetes 管理功能,
讓企業得以進行多節點推論,進一步提升大規模混合專家模型等複雜 AI 模型的效能與效率
作者 NVIDIA Corporation

NVIDIA Blackwell 在獨立機構 SemiAnalysis 近期的 InferenceMAX v1 基準測試中,於所有受測模型與使用情境中皆展現最高的效能與效率,以及最低的總持有成本。

NVIDIA 執行長黃仁勳日前在 NVIDIA GTC Washington D.C. 大會上指出,Blackwell 相較 NVIDIA Hopper 可帶來 10 倍效能,並讓營收也成長至 10 倍

要在當今最複雜的 AI 模型上達到如此領先業界的效能,例如在大規模混合專家(MoE)模型上,必須將推論工作分散(或解構)到多台伺服器(節點)上,才能同時服務數以百萬計的使用者,並提供更快速的回應。

NVIDIA Dynamo軟體平台將這些強大的多節點能力帶入實際的生產環境,讓企業能在既有的雲端環境中,同樣實現這些在基準測試中奪冠的效能與效率。以下將說明多節點推論如何帶動效能躍進,以及各大雲端平台如何實際運用這項技術。

善用解構式推論,最佳化效能

對於能完整放在單一 GPU 或單一伺服器上的 AI 模型,開發者通常會在多個節點上平行運行許多相同模型的複本,以提供高輸送量。Signal65 首席分析師 Russ Fellows 在近期一篇技術報告中指出,這種作法搭配 72 顆 NVIDIA Blackwell Ultra GPU,首次創下每秒 110 萬個詞元 (token) 的聚合輸送量紀錄。

而當 AI 模型需要擴充,以即時服務大量同時上線的使用者,或是需要處理輸入序列極長的高負載工作時,採用稱為解構式服務(disaggregated serving)的技術,便能進一步釋放效能並提升效率。

AI 模型在提供服務時,大致可分為兩個階段:處理輸入提示的預填(prefill)階段,以及產生輸出結果的解碼(decode)階段。傳統上,這兩個階段都在同一組 GPU 上執行,容易降低資源使用效率。

解構式服務的做法,是將這些工作智慧地分配到分別最佳化的 GPU 上。如此,每一部分工作都能套用最合適的最佳化技術,極大化整體效能。對於當今大規模的 AI 推理與混合專家模型(如 DeepSeek-R1),解構式服務便是其中的關鍵技術。

NVIDIA Dynamo 讓解構式服務等功能,能輕鬆擴展至 GPU 叢集層級,導入實際生產環境。

這項能力已經開始創造實際價值。

Baseten 為例,該公司透過 NVIDIA Dynamo,將長脈絡程式碼生成的推論服務速度提升 2 倍,輸送量提高至 1.6 倍,且完全不需要額外的硬體成本。這類由軟體驅動的效能提升,讓 AI 服務供應商可以大幅降低生產智慧的成本。

在雲端擴展解構式推論

就像當年協助大規模 AI 訓練一樣,Kubernetes 做為容器化應用管理的業界標準,也同樣非常適合用來將解構式服務擴展到數十、甚至數百個節點,滿足企業級 AI 佈署需求。

隨著 NVIDIA Dynamo 現已整合進所有主要雲端供應商的託管式 Kubernetes 服務中,客戶可以在包括 GB200GB300 NVL72等 NVIDIA Blackwell 系統上擴展多節點推論,同時滿足企業 AI 佈署對效能、彈性與可靠性的嚴格要求。

  • Amazon Web Services 現正透過 NVIDIA Dynamo,並結合 Amazon EKS,為客戶加速生成式 AI 推論。
  • Google Cloud 在其 AI Hypercomputer 上提供 Dynamo 配方(recipe),以在企業規模下最佳化大型語言模型(LLM)推論。
  • Microsoft Azure 透過 Azure Kubernetes Service,搭配 NVIDIA Dynamo 與 ND GB200-v6 GPU,實現多節點大型語言模型推論。
  • Oracle Cloud Infrastructure(OCI)結合 OCI Superclusters 與 NVIDIA Dynamo,提供多節點大型語言模型推論能力。

推動大規模多節點推論的腳步,已不僅止於超大規模雲端服務業者。

例如 Nebius 正在設計其雲端平台,目標是大規模提供推論工作負載服務,並以 NVIDIA 加速運算基礎設施為基礎,以生態系夥伴角色使用NVIDIA Dynamo 協作。

 

Kubernetes 上結合 NVIDIA Grove NVIDIA Dynamo,簡化推論流程

解構式 AI 推論需要協調多個專門元件的運作,包括預填(prefill)、解碼(decode)、路由(routing)等,而且每個元件都有不同需求。Kubernetes 現在面臨的挑戰,不再只是啟動更多平行的模型複本,而是如何巧妙地將這些不同的元件整合成一個運作順暢、效能卓越的系統。

NVIDIA Grove 是一套現已整合進 NVIDIA Dynamo 的應用程式介面,可讓使用者以單一、高層級的規格描述整個推論系統。

例如,在一份規格中,使用者只需要清楚宣告需求:「我需要 3 個用於預填階段的 GPU 節點,以及 6 個用於解碼階段的 GPU 節點,而且同一個模型複本所需的所有節點,都必須部署在同一個高速互連網路上,以獲得最快速的回應。」

在取得這份規格後,Grove 會自動處理所有繁複的協調作業:在維持正確比例與相依性的前提下,擴展相關元件,依正確順序啟動,並在叢集中策略性配置,確保溝通快速且高效。想了解如何開始使用 NVIDIA Grove,可參閱相關技術深度解析

隨著 AI 推論日益走向分散式架構,Kubernetes 結合 NVIDIA Dynamo 與 NVIDIA Grove,將大幅簡化開發者建置與擴展智慧型應用程式的方式。

您可以親自體驗 NVIDIA AI-at-scale 模擬工具,看看不同硬體與佈署策略如何影響效能、效率與使用者體驗。若想進一步深入了解解構式服務,以及 Dynamo NVIDIA GB200 NVL72 系統如何協同提升推論效能,歡迎閱讀相關技術部落格

若希望每月收到最新資訊,歡迎訂閱 NVIDIA Think SMART 電子報