NVIDIA Blackwell 在獨立機構 SemiAnalysis 近期的 InferenceMAX v1 基準測試中,於所有受測模型與使用情境中皆展現最高的效能與效率,以及最低的總持有成本。

要在當今最複雜的 AI 模型上達到如此領先業界的效能,例如在大規模混合專家(MoE)模型上,必須將推論工作分散(或解構)到多台伺服器(節點)上,才能同時服務數以百萬計的使用者,並提供更快速的回應。
NVIDIA Dynamo軟體平台將這些強大的多節點能力帶入實際的生產環境,讓企業能在既有的雲端環境中,同樣實現這些在基準測試中奪冠的效能與效率。以下將說明多節點推論如何帶動效能躍進,以及各大雲端平台如何實際運用這項技術。
善用解構式推論,最佳化效能
對於能完整放在單一 GPU 或單一伺服器上的 AI 模型,開發者通常會在多個節點上平行運行許多相同模型的複本,以提供高輸送量。Signal65 首席分析師 Russ Fellows 在近期一篇技術報告中指出,這種作法搭配 72 顆 NVIDIA Blackwell Ultra GPU,首次創下每秒 110 萬個詞元 (token) 的聚合輸送量紀錄。
而當 AI 模型需要擴充,以即時服務大量同時上線的使用者,或是需要處理輸入序列極長的高負載工作時,採用稱為解構式服務(disaggregated serving)的技術,便能進一步釋放效能並提升效率。
AI 模型在提供服務時,大致可分為兩個階段:處理輸入提示的預填(prefill)階段,以及產生輸出結果的解碼(decode)階段。傳統上,這兩個階段都在同一組 GPU 上執行,容易降低資源使用效率。
解構式服務的做法,是將這些工作智慧地分配到分別最佳化的 GPU 上。如此,每一部分工作都能套用最合適的最佳化技術,極大化整體效能。對於當今大規模的 AI 推理與混合專家模型(如 DeepSeek-R1),解構式服務便是其中的關鍵技術。
NVIDIA Dynamo 讓解構式服務等功能,能輕鬆擴展至 GPU 叢集層級,導入實際生產環境。
這項能力已經開始創造實際價值。
以 Baseten 為例,該公司透過 NVIDIA Dynamo,將長脈絡程式碼生成的推論服務速度提升 2 倍,輸送量提高至 1.6 倍,且完全不需要額外的硬體成本。這類由軟體驅動的效能提升,讓 AI 服務供應商可以大幅降低生產智慧的成本。
在雲端擴展解構式推論
就像當年協助大規模 AI 訓練一樣,Kubernetes 做為容器化應用管理的業界標準,也同樣非常適合用來將解構式服務擴展到數十、甚至數百個節點,滿足企業級 AI 佈署需求。
隨著 NVIDIA Dynamo 現已整合進所有主要雲端供應商的託管式 Kubernetes 服務中,客戶可以在包括 GB200 與 GB300 NVL72等 NVIDIA Blackwell 系統上擴展多節點推論,同時滿足企業 AI 佈署對效能、彈性與可靠性的嚴格要求。
- Amazon Web Services 現正透過 NVIDIA Dynamo,並結合 Amazon EKS,為客戶加速生成式 AI 推論。
- Google Cloud 在其 AI Hypercomputer 上提供 Dynamo 配方(recipe),以在企業規模下最佳化大型語言模型(LLM)推論。
- Microsoft Azure 透過 Azure Kubernetes Service,搭配 NVIDIA Dynamo 與 ND GB200-v6 GPU,實現多節點大型語言模型推論。
- Oracle Cloud Infrastructure(OCI)結合 OCI Superclusters 與 NVIDIA Dynamo,提供多節點大型語言模型推論能力。
推動大規模多節點推論的腳步,已不僅止於超大規模雲端服務業者。
例如 Nebius 正在設計其雲端平台,目標是大規模提供推論工作負載服務,並以 NVIDIA 加速運算基礎設施為基礎,以生態系夥伴角色使用NVIDIA Dynamo 協作。
在 Kubernetes 上結合 NVIDIA Grove 與 NVIDIA Dynamo,簡化推論流程
解構式 AI 推論需要協調多個專門元件的運作,包括預填(prefill)、解碼(decode)、路由(routing)等,而且每個元件都有不同需求。Kubernetes 現在面臨的挑戰,不再只是啟動更多平行的模型複本,而是如何巧妙地將這些不同的元件整合成一個運作順暢、效能卓越的系統。
NVIDIA Grove 是一套現已整合進 NVIDIA Dynamo 的應用程式介面,可讓使用者以單一、高層級的規格描述整個推論系統。
例如,在一份規格中,使用者只需要清楚宣告需求:「我需要 3 個用於預填階段的 GPU 節點,以及 6 個用於解碼階段的 GPU 節點,而且同一個模型複本所需的所有節點,都必須部署在同一個高速互連網路上,以獲得最快速的回應。」
在取得這份規格後,Grove 會自動處理所有繁複的協調作業:在維持正確比例與相依性的前提下,擴展相關元件,依正確順序啟動,並在叢集中策略性配置,確保溝通快速且高效。想了解如何開始使用 NVIDIA Grove,可參閱相關技術深度解析。
隨著 AI 推論日益走向分散式架構,Kubernetes 結合 NVIDIA Dynamo 與 NVIDIA Grove,將大幅簡化開發者建置與擴展智慧型應用程式的方式。
您可以親自體驗 NVIDIA 的 AI-at-scale 模擬工具,看看不同硬體與佈署策略如何影響效能、效率與使用者體驗。若想進一步深入了解解構式服務,以及 Dynamo 與 NVIDIA GB200 NVL72 系統如何協同提升推論效能,歡迎閱讀相關技術部落格。
若希望每月收到最新資訊,歡迎訂閱 NVIDIA Think SMART 電子報。
