擴展到新高度:NVIDIA MLPerf 訓練結果展示了前所未有的效能和彈性

NVIDIA 在最新的 MLPerf 訓練基準測試中達到了無與倫比的效能和近 100% 的擴充效率
作者 Dave Salvator

全端 NVIDIA 加速運算平台在最新的 MLPerf Training v4.0 基準測試中再次展現出卓越的效能。

與去年 NVIDIA 提交創新紀錄的數據相比,NVIDIA 在基於 GPT-3 175B 的大型語言模型(LLM)基準測試中的表現,提升了三倍以上。 NVIDIA 使用配備 11,616 個 NVIDIA H100 Tensor Core GPU 並與 NVIDIA Quantum-2 InfiniBand 網路連接的人工智慧(AI)超級電腦,透過更大規模(比一年前提交的 3,584 個 H100 GPU 增加三倍多)和廣泛的全端工程實現了這項非凡壯舉。

由於 NVIDIA AI 平台的可擴展性,Eos 現在可以更快地訓練 GPT-3 175B 等大規模 AI 模型,這種出色的 AI 效能可以轉化為巨大的商機。例如,在 NVIDIA 最近的財報電話會議中,我們描述了大型語言模型服務供應商如何在 NVIDIA HGX H200 伺服器上運行 Llama 3 70B 模型,在短短四年內將一美元投資轉化為七美元。這個投資回報是假設一家大型語言服務供應商使用吞吐量為每秒 24,000 詞元的 HGX H200 伺服器,以每百萬詞元 0.6 美元的價格提供 Llama 3 70B 服務。

NVIDIA H200 GPU 增強生成式 AI HPC

NVIDIA H200 Tensor GPU 基於 Hopper 架構的優勢而構建,擁有 141GB HBM3 記憶體,與 H100 GPU 相比,記憶體頻寬增加了 40% 以上。 NVIDIA H200 Tensor Core GPU 突破了 AI 訓練的極限,在其首次亮相的 MLPerf Training 中延伸 H100 的效能並提高了 47%。

軟體帶來無與倫比的效能提升

此外,由於對 NVIDIA 軟體堆疊進行了大量最佳化,我們使用 512 個 H100 GPU 的配置所提交的結果現在比一年前快了 27%。這項改進凸顯了即使使用相同的硬體,持續的軟體增強也可以顯著提高效能。

這項工作也實現了近乎完美的擴充。隨著 GPU 數量從去年的 3,584 個 H100 GPU 增加到此次提交的 11,616 個 H100 GPU,增加 3.2 倍,提交的效能也隨之等比增加。

歡迎至 NVIDIA 技術部落格上了解這些最佳化的相關資訊。

在大型語言模型(LLM)微調方面的卓越表現

隨著企業尋求客製化預訓練的大型語言模型,大型語言模型微調正在成為產業關鍵的工作負載。 本輪 MLPerf 引入基於應用於 Meta Llama 2 70B 的熱門低秩適應(LoRA)技術的全新大型語言模型微調基準。

NVIDIA 平台在這項任務中表現出色,從 8 個 GPU 擴展到 1,024 個 GPU,NVIDIA提交了在最大規模的運算結果創紀錄的 1.5 分鐘內完成了基準測試

加速 Stable Diffusion GNN 訓練

NVIDIA 也在上一輪提交的相同系統規模下將 Stable Diffusion v2 訓練效能提高了 80%。這些進步反映了 NVIDIA 軟體堆疊的諸多強化,展示了軟體和硬體改進如何並進以提供頂級效能。

在基於 R-GAT 的新圖神經網路(GNN)測試中,配備 H100 GPU 的 NVIDIA 平台在小規模和大規模方面均表現出色。與 H100 相比,H200 在單節點 GNN 訓練方面提升了 47%。這展示了 NVIDIA GPU 的強大效能和高效率,使其成為各種 AI 應用的理想選擇。

廣泛的生態系支持

10 家 NVIDIA 合作夥伴提交了結果,反映了 NVIDIA AI 生態系的廣度,包括華碩、戴爾科技集團、富士通、技嘉科技、慧與企業、聯想、甲骨文、雲達科技、美超微和 Sustainable Metal Cloud。此廣泛的參與以及各夥伴傑出的基準測試結果,突顯了 NVIDIA AI 平台在整個產業的廣泛採用和信任。

MLCommons 持續致力於將基準測試最佳實踐引入 AI 運算至關重要。透過對 AI 和 HPC 平台進行同儕審查比較,並跟上 AI 運算的快速變化,MLCommons 為世界各地的公司提供了有助於引導重要採購決策的關鍵數據。

隨著 NVIDIA Blackwell 平台推出,用於訓練和推論的兆參數生成式 AI 模型的新一等級 AI 效能即將實現。