全球最高速的超級電腦正快速變化

作者 NVIDIA

現代的運算作業負載,包括科學模擬、視覺化、資料分析和機器學習,正促使超級電腦中心、雲端供應商和企業重新思考他們的運算架構。

僅仰賴最佳化調整處理器、網路或軟體,無法滿足研究人員、工程師和資料科學家的最新需求。相反地,資料中心成為一個新的運算單位,組織必須著眼於整個技術堆疊。

從一份最新的全球最強大超級電腦系統排名來看,最新一代的超級電腦仍延續著這種全堆疊式方法的發展動力。

在本週舉行的 Supercomputing 21 (SC21) 大會上公布的 TOP500 排行榜,355 套系統中超過 70% 皆採用 NVIDIA 的加速技術,在所有新系統的採用比例更超過 90%。相較於六月發表的 TOP500 排行榜中的 342 套系統 (68%),數量又增加不少。

NVIDIA 也稱霸 Green500 最節能系統排行榜,在前 25 名的系統中有 23 套系統採用 NVIDIA 的技術,與六月份的名單相比,NVIDIA 依然名列前茅。平均來說,搭載 NVIDIA GPU 的系統比起名單上未採用 GPU 的系統,能源使用效率高出 3.5 倍。

微軟的 GPU 加速 Azure 超級電腦衝上第 10 名,這是雲端超級電腦系統首次進入前 10 名,突顯出新一代雲端原生系統的萌芽。

人工智慧 (AI) 也為科學運算領域帶來革命性的變化。近年來,利用高效能運算與機器學習進行研究的論文數量激增;從 2018 年大約 600 篇,到 2020 年增長到近 5000 篇。

HPL-AI 與 MLPerf HPC 等新基準也強調高效能運算與 AI 作業負載的融合。

HPL-AI 是融合高效能運算與 AI 作業負載的新基準,使用混合精度數學,是深度學習及許多科學和商業工作的基礎,同時仍然提供雙精度數學的完整精度,這是傳統高效能運算基準的標準衡量指標。

MLPerf HPC 則提出一種運算方式,用 AI 加速和增強超級電腦上的模擬作業,這項基準測量了高效能運算中心三大作業負載的執行表現,即天體物理學、氣象 (Deepcam) 與分子動力學 (Opencatalyst)。

NVIDIA 運用 GPU 加速處理、智慧型網路、GPU 最佳化的應用程式,還有支援 AI 和高效能運算融合的函式庫,提出完整的堆疊。這個做法加強處理作業負載的能力,創造出突破性的科學研究成果。

讓我們一同來更深入瞭解 NVIDIA 如何增加超級電腦的運算能力。

加速運算

GPU 的平行處理能力,加上超過 2,500 個 GPU 最佳化應用程式,讓使用者能夠加快處理其高效能運算作業,在許多情況下從原本需耗費數週的時間,減少到僅需幾小時便能完成。

我們不斷最佳化 CUDA-X 函式庫GPU 加速應用程式,若使用者覺得同一個 GPU 架構的效能出現幾倍數的成長,也不是什麼太奇怪的事情。因此,那些使用最廣泛的科學應用程式,我們稱之為「黃金套裝」,其效能在過去六年中已經提高 16 倍,後續還會有更可觀的進步。

從全堆疊創新的角度來看,頂尖高效能運算、人工智慧及
機器學習應用程式的效能成長了 16 倍。**

我們利用 NGC 目錄中的容器提供最新版本的 AI 和高效能運算軟體,以協助使用者快速利用更高的效能。使用者只要在他們資料中心或雲端環境的超級電腦上,拉動並運行應用程式即可。

高效能運算與 AI 的融合

在高效能運算中加入 AI,有助於研究人員加快模擬速度,同時享有傳統模擬方法所能達到的精度。這便是有愈來愈多的研究人員利用 AI 來加速發現的原因。

入圍今年超級運算領域最負盛名的戈登貝爾獎 (Gordon Bell prize) 決賽的四支隊伍,也是採取這個做法。各機構正競相打造 exascale 等級的 AI 電腦,以支援這種結合高效能運算與 AI 的新興模式。

HPL-AI 與 MLPerf HPC 等相對較新的基準強調了這股優勢,突顯出高效能運算及 AI 作業負載一直在融合的局面。NVIDIA 上週宣布針對高效能運算推出多項全新先進函式庫及軟體開發套件,更有推波助瀾之效。

繪圖是現代資料科學領域中的一項關鍵資料結構,現在可以使用 Deep Graph Library (DGL) 這個新的 Python 軟體包,將圖形投射到深度神經網路框架中。

NVIDIA Modulus 建立及訓練有物理根據的機器學習模型,能夠學習和遵守物理定律。

NVIDIA 還推出了以下三個新的函式庫:

  • ReOpt 為市值 10 兆美元的物流業提高運作效率。
  • cuQuantum 加快量子運算研究速度。
  • cuNumeric 為 Python 領域裡的科學家、資料科學家及機器學習和 AI 研究人員加速運行 NumPy。

將這一切交織在一起的,便是 NVIDIA 的 3D 工作流程虛擬世界模擬和協作平台 NVIDIA Omniverse

Omniverse 用於模擬倉庫、工廠、物理和生物系統、5G 邊緣機器人自動駕駛車,甚至是虛擬化身的數位孿生內容。NVIDIA 上週宣佈將使用 Omniverse 來打造名為 Earth-2 的超級電腦,專門用於建立地球的數位孿生內容來預測氣候變遷情況。

雲端原生超級運算

隨著超級電腦吃下愈來愈多的資料分析、AI、模擬及視覺化作業負載,便將 CPU 擴展到支援運行大型複雜系統所需,且數量日漸增加的通訊任務。資料處理器卸載了部分作業,以減輕 CPU 的壓力。

NVIDIA BlueField DPU 是一款完全整合的系統單資料中心平台,能夠卸載和管理資料中心的基礎設施任務,而不是讓主機處理器來做這些工作,這麼一來便能擁有更強大的安全性,且更有效地協調超級電腦處理各項作業。

這個架構加上 NVIDIA Quantum InfiniBand 平台,提供最佳的裸機效能,又以原生方式支援多節點租戶隔離。

NVIDIA 的 Quantum InfiniBand 平台提供預測性、裸機效能的隔離功能

零信任的做法,也提高了這些新系統的安全性。

BlueField DPU 將應用程式與基礎設施隔離開來。最新的 BlueField 軟體平台 NVIDIA DOCA 1.2,支援新一代分散式防火牆及更廣泛使用線路速率資料加密技術。假設有人已經入侵資料中心,NVIDIA Morpheus 會利用支援深度學習的資料科學來即時偵測入侵者的活動。

新的網路技術將加速上述各項趨勢的發展。

NVIDIA 在上週還宣布推出 400Gbps InfiniBand 平台 NVIDIA Quantum-2,由 Quantum-2 交換器、ConnectX-7 網路卡、BlueField-3 DPU,以及用於新網路架構的新軟體所組成。

NVIDIA Quantum-2 提供了裸機高效能和安全多租戶的優點,讓下一代超級電腦具備安全性、雲端原生支援能力以及更高的使用率。

** 基準應用程式:Amber、Chroma、GROMACS、MILC、NAMD、PyTorch、Quantum Espresso;Random Forest FP32、TensorFlow、VASP | GPU 節點:雙插槽 CPU 搭配 4 個 P100、V100 或 A100 GPU。