推論效能至關重要,因為它會直接影響人工智慧(AI)工廠的經濟效益。AI 工廠基礎設施的輸送量越高,就能以高速產生更多詞元(token),進而提高營收、降低總擁有成本(TCO),並提升整體系統的生產力。
採用 NVIDIA Blackwell Ultra 架構的 NVIDIA GB300 NVL72 機架規模系統,在 NVIDIA GTC 大會首度亮相至今不到半年後,已在 MLPerf Inference v5.1 的全新推理(reasoning)推論基準上創下紀錄,與採用 NVIDIA Blackwell 架構的 GB200 NVL72 系統相比,DeepSeek-R1 推論的輸送量最高可達 1.4 倍。
Blackwell Ultra 建立在 Blackwell 架構的成功之上。Blackwell Ultra 架構提供與 Blackwell 相比1.5 倍的 NVFP4 AI 運算與 2 倍的 attention-layer 加速,且每顆 GPU 可配備最高 288GB 的 HBM3e 記憶體。
NVIDIA 平台也在 MLPerf Inference v5.1 套件新增的所有資料中心基準上創下效能紀錄,包含 DeepSeek-R1、Llama 3.1 405B Interactive、Llama 3.1 8B 與 Whisper,同時持續維持每顆 GPU 在每項 MLPerf 資料中心基準中的紀錄。
全端整合
全端共同設計在交出這些最新基準成績時扮演重要角色。Blackwell 與 Blackwell Ultra 導入對 NVFP4 資料格式的硬體加速。NVFP4 是 NVIDIA 設計的 4 位元浮點格式,相較於其他 FP4 格式提供更佳準確度,也可達到與較高精度格式相當的準確度。
NVIDIA TensorRT Model Optimizer 軟體將 DeepSeek-R1、Llama 3.1 405B、Llama 2 70B 與 Llama 3.1 8B 量化為 NVFP4。搭配開源的 NVIDIA TensorRT-LLM 程式庫,這項最佳化使 Blackwell 與 Blackwell Ultra 在提交成績時能在滿足嚴格準確度要求的同時提供更高效能。
大型語言模型的推論由兩種執行特性截然不同的工作負載組成。這包括用於處理使用者輸入以產生第一個輸出詞元的情境(context),以及用於產生其後的所有輸出詞元的生成(generation)。
一種稱為「分離式服務(disaggregated serving)」的技術,會將情境與生成任務拆分,使每一部分都能獨立最佳化以達到最佳整體輸送量。這項技術是 Llama 3.1 405B Interactive 基準創下紀錄的關鍵之一。相較於在 NVIDIA DGX B200 伺服器上以傳統服務架構執行該基準時每顆 Blackwell GPU 的表現,GB200 NVL72 系統的每顆 GPU 效能提升將近 50%。
NVIDIA 也在本輪基準測試首度使用 NVIDIA Dynamo 推論框架提交成績。
NVIDIA 的合作夥伴,包括雲端服務供應商與伺服器製造商,提交了採用 NVIDIA Blackwell 與(或)Hopper 平台所展現的亮眼成績。這些夥伴包含 Azure、Broadcom、Cisco、CoreWeave、Dell Technologies、技鋼科技、HPE、Lambda、Lenovo、Nebius、Oracle、雲達科技、Supermicro 及 University of Florida。
在 NVIDIA AI 平台上領先市場的推論效能,現已由主要雲端服務供應商與伺服器製造商提供。這為部署進階 AI 應用的組織帶來更低的總擁有成本與更高的投資報酬。
若想進一步了解這些全端技術,請閱讀 NVIDIA 技術部落格關於 MLPerf Inference v5.1 的文章。也歡迎造訪 NVIDIA DGX Cloud Performance Explorer,以深入認識 NVIDIA 的效能與模型總擁有成本,並產生客製化報告。