Meta 與 NVIDIA 攜手打造大型 AI 研究超級電腦

作者 NVIDIA

Meta 平台對 NVIDIA 大加讚賞,之所以選擇我們的技術,是因為他們認為這是迄今為止非常強大的研究系統。

今天發布的 AI 研究超級叢集 (RSC) 已經在訓練新模型,以便推動 AI 發展。

完成部署後,Meta 的 RSC 有望成為安裝 NVIDIA DGX A100 系統的大型客戶。

該公司在一篇部落格中說道:“我們希望 RSC 能夠幫助我們建構新的 AI 系統,例如,為大型群體(其中每個人講不同的語言)提供即時語音翻譯支援,以便他們可以在參與研究項目時開展無縫協作,也可以一起暢玩 AR 遊戲。”

訓練 AI 的大型模型

RSC 將在今年晚些時候完全建構完畢,然後,Meta 計劃將其用於訓練包含超過萬億參數的 AI 模型。這可推動自然語言處理等領域的發展,助力處理即時識別有害內容等工作。

除了大規模效能之外,Meta 還能以極高的可靠性、安全性、隱私性和靈活性,處理“各種各樣的 AI 模型”,用作 RSC 的關鍵標準。

Meta RSC system
Meta 的 AI 研究超級叢集包含數百個 NVIDIA DGX 系統,這些系統與 NVIDIA Quantum InfiniBand 網路相連,能夠加速其 AI 研究團隊的工作。

原理揭秘

新型 AI 超級電腦目前將 760 個 NVIDIA DGX A100 系統作用作運算節點。它們總共包括 6080 個 NVIDIA A100 GPU,這些 GPU 通過 NVIDIA Quantum 200Gb/s InfiniBand 網路相連,可提供 1895 petaflops 的 TF32 效能。

儘管新冠肺炎 (COVID-19) 帶來了挑戰,但 RSC 借助基於 Meta RSC 的 NVIDIA DGX A100 技術,僅用了 18 個月的時間,就將寫在紙上的想法變為一台正常運行的 AI 超級電腦(如以下影片所示)。

20 倍效能提升

這是 Meta 第二次選擇 NVIDIA 技術作為研究基礎設施的基礎。 2017 年,Meta 使用 22,000 個 NVIDIA V100 Tensor Core GPU 建構了第一代 AI 研究基礎設施,此基礎設施可每天處理 35,000 項 AI 訓練任務。

Meta 的早期基準測試表明,與上一代系統相比,RSC 訓練大型 NLP 模型的速度快達 3 倍,運行電腦視覺作業的速度要快達 20 倍。

在於今年晚些時候推出的第二階段中,RSC 將擴展至 16,000 個 GPU,Meta 認為這些 GPU 可提供高達 5 exaflops 的混合精度 AI 效能。 Meta 旨在擴展 RSC 的儲存系統,以每秒 16 TB 的速度提供高達 1 PB 的數據。

可擴展架構

NVIDIA AI 技術適用於各種規模的企業。

NVIDIA DGX 包含全套 NVIDIA AI 軟體,能夠輕鬆地從單個系統擴展至基於內部私有雲或託管供應商運行的 DGX SuperPOD。客戶還可以通過 NVIDIA DGX Foundry 租賃 DGX 系統。