AI 世代堅如鋼:DGX SuperPOD 憑藉 NVIDIA DGX A100 再創新猷

作者 Tony Paikeday

長久以來,鋼鐵一直是工業化的象徵。在 AI 世代,一種新的“建築材料”將成為現代資料中心的基石:NVIDIA DGX A100。

企業現在面臨的許多最大挑戰和機遇會都取決於數據。 DGX A100 是世界上最先進的 AI 系統,它使組織能夠在創紀錄的時間內解決問題,同時透過分析,訓練和推論提供 AI 運算能力方面具有革命性的靈活性和敏捷性。

去年,我們結合了多個 DGX 系統,推出了 DGX SuperPOD,該產品以典型的超級電腦成本和能耗的一小部分就達到了 HPC 500 前 20 級的性能。

今天,我們為第二代 SuperPOD 揭開了序幕,該產品提供了創紀錄的性能,並在短短三週內就完成了部署。它消除了建構世界一流的 AI 超級電腦叢集需要花費數月時間的疑慮。

由 NVIDIA DGX A100 系統和 NVIDIA Mellanox 網路結構建構的 SuperPOD 平台,可以將世界上最複雜的語言理解模型的處理時間從數週縮短至一個小時以下。

重新考慮基礎架構擴展

無論您是需要一個超級電腦叢集來解決龐大的整體問題,還是需要一個卓越的資料中心讓所有研究人員和開發人員的存取資源普普遍化,人工智慧都是一項重大的基礎設施承諾。

傳統上,建構一個資料中心最大考量在於預先計劃您必須擴展的規模,然後從第一天開始就建構網路結構以支持最終目標。這種方法有其必要,因為資料中心要考量未來可能的成長所以需要超前部署,但是卻也產生了大量的前置成本。

借助 NVIDIA Mellanox 技術,我們正在重新定義資料中心的架構,可以平行化處理最複雜的問題,並儘快解決它們。DGX A100 有配備 200Gbps HDR InfiniBand 的新型 Mellanox ConnectX-6 VPI 網路介面控制器,每個系統最多 9 個接口。我們利用 Mellanox 切換的優勢,可以更輕鬆地互連系統並實現 SuperPOD 規模。

借助 DGX SuperPOD 和 DGX A100,我們設計了 AI 網路結構,通過按需購買(pay-as-you-grow)模式,讓資料中心擴展更加輕鬆,同時更大幅減少了對營運的影響。

部署的結束狀態不再是起點,我們將 SuperPOD 模組化,讓它成為 20 個 DGX A100 系統的可擴展組。使用 Mellanox HDR InfiniBand 的兩層 fat-tree 交換機網路拓撲技術,可提供完整的兩部分帶寬,而沒有超額訂購。通過添加第三個交換層,您可以使用 DragonFly + 或 fat-tree 拓撲作為擴展參考設計的一部分,擴展到成千上萬個系統。

有了這個新的規模單位,企業組織可以享受更線性的增長方式,以小幅支出的方式,用增加20個系統模組的方式來增加規模。

通過 SuperPOD 擴展 DGX SATURNV

DGX SATURNV 支持 NVIDIA 最重要的工作,從研發和自動駕駛汽車系統開發到遊戲和機器人技術。SATURNV 並不是一成不變的,它會隨著業務需求的增長而不斷增長。這使其成為我們新的 SuperPOD 設計的理想試驗場。

在發布 DGX A100 之前,我們的工程師部署了我們最新的 SuperPOD,以提供大約 700 petaflops 的 AI 性能。此擴展包含:

  • 140 個 DGX A100 系統
  • 1,120 個 NVIDIA A100 GPU
  • 170 個 Mellanox Quantum 200G InfiniBand 交換機
  • 15 公里光纖電纜
  • 4PB 高性能儲存

對於擴展中的儲存基礎架構,我們與 DDN 合作。作為 DGX POD 合作夥伴之一,他們正在幫助我們帶來AI基礎架構產品所需的性能和規模。 SuperPOD 使我們能夠使用DDN技術來支持我們在最先進的系統中可能遇到的最具挑戰性的工作負載。

最佳擴展規模

並非所有 AI 計劃都需要 DGX SuperPOD。但是,每個希望將業務導入 AI 的企業組織都可以利用 DGX A100 或 DGX POD 的功能,敏捷性和可擴展性。

前瞻性的企業組織專注於保護客戶忠誠度,降低成本以及與競爭對手保持距離。人工智慧在所有這些領域都具有獨特的優勢。

但是,隨著模型和數據集的大小呈指數增長,人工智慧的創新發展迅速。正確的體系結構使公司現在和將來都能夠應對其最大的 AI 挑戰,而不會半路中斷。

請參閱 www.nvidia.com/DGXA100 ,了解如何改進 AI 基礎架構策略以及輕鬆存取使用 DGX A100 的各項訊息。