全球最高速的超級電腦正快速變化 - NVIDIA 台灣官方部落格

現代的運算作業負載，包括科學模擬、視覺化、資料分析和機器學習，正促使超級電腦中心、雲端供應商和企業重新思考他們的運算架構。

僅仰賴最佳化調整處理器、網路或軟體，無法滿足研究人員、工程師和資料科學家的最新需求。相反地，資料中心成為一個新的運算單位，組織必須著眼於整個技術堆疊。

從一份最新的全球最強大超級電腦系統排名來看，最新一代的超級電腦仍延續著這種全堆疊式方法的發展動力。

在本週舉行的 Supercomputing 21 (SC21) 大會上公布的 TOP500 排行榜，355 套系統中超過 70% 皆採用 NVIDIA 的加速技術，在所有新系統的採用比例更超過 90%。相較於六月發表的 TOP500 排行榜中的 342 套系統 (68%)，數量又增加不少。

NVIDIA 也稱霸 Green500 最節能系統排行榜，在前 25 名的系統中有 23 套系統採用 NVIDIA 的技術，與六月份的名單相比，NVIDIA 依然名列前茅。平均來說，搭載 NVIDIA GPU 的系統比起名單上未採用 GPU 的系統，能源使用效率高出 3.5 倍。

微軟的 GPU 加速 Azure 超級電腦衝上第 10 名，這是雲端超級電腦系統首次進入前 10 名，突顯出新一代雲端原生系統的萌芽。

人工智慧 (AI) 也為科學運算領域帶來革命性的變化。近年來，利用高效能運算與機器學習進行研究的論文數量激增；從 2018 年大約 600 篇，到 2020 年增長到近 5000 篇。

HPL-AI 與 MLPerf HPC 等新基準也強調高效能運算與 AI 作業負載的融合。

HPL-AI 是融合高效能運算與 AI 作業負載的新基準，使用混合精度數學，是深度學習及許多科學和商業工作的基礎，同時仍然提供雙精度數學的完整精度，這是傳統高效能運算基準的標準衡量指標。

MLPerf HPC 則提出一種運算方式，用 AI 加速和增強超級電腦上的模擬作業，這項基準測量了高效能運算中心三大作業負載的執行表現，即天體物理學、氣象 (Deepcam) 與分子動力學 (Opencatalyst)。

NVIDIA 運用 GPU 加速處理、智慧型網路、GPU 最佳化的應用程式，還有支援 AI 和高效能運算融合的函式庫，提出完整的堆疊。這個做法加強處理作業負載的能力，創造出突破性的科學研究成果。

讓我們一同來更深入瞭解 NVIDIA 如何增加超級電腦的運算能力。

加速運算

GPU 的平行處理能力，加上超過 2,500 個 GPU 最佳化應用程式，讓使用者能夠加快處理其高效能運算作業，在許多情況下從原本需耗費數週的時間，減少到僅需幾小時便能完成。

我們不斷最佳化 CUDA-X 函式庫及 GPU 加速應用程式，若使用者覺得同一個 GPU 架構的效能出現幾倍數的成長，也不是什麼太奇怪的事情。因此，那些使用最廣泛的科學應用程式，我們稱之為「黃金套裝」，其效能在過去六年中已經提高 16 倍，後續還會有更可觀的進步。

我們利用 NGC 目錄中的容器提供最新版本的 AI 和高效能運算軟體，以協助使用者快速利用更高的效能。使用者只要在他們資料中心或雲端環境的超級電腦上，拉動並運行應用程式即可。

在高效能運算中加入 AI，有助於研究人員加快模擬速度，同時享有傳統模擬方法所能達到的精度。這便是有愈來愈多的研究人員利用 AI 來加速發現的原因。

入圍今年超級運算領域最負盛名的戈登貝爾獎 (Gordon Bell prize) 決賽的四支隊伍，也是採取這個做法。各機構正競相打造 exascale 等級的 AI 電腦，以支援這種結合高效能運算與 AI 的新興模式。

HPL-AI 與 MLPerf HPC 等相對較新的基準強調了這股優勢，突顯出高效能運算及 AI 作業負載一直在融合的局面。NVIDIA 上週宣布針對高效能運算推出多項全新先進函式庫及軟體開發套件，更有推波助瀾之效。

繪圖是現代資料科學領域中的一項關鍵資料結構，現在可以使用 Deep Graph Library (DGL) 這個新的 Python 軟體包，將圖形投射到深度神經網路框架中。

NVIDIA Modulus 建立及訓練有物理根據的機器學習模型，能夠學習和遵守物理定律。

NVIDIA 還推出了以下三個新的函式庫：

將這一切交織在一起的，便是 NVIDIA 的 3D 工作流程虛擬世界模擬和協作平台 NVIDIA Omniverse。

Omniverse 用於模擬倉庫、工廠、物理和生物系統、5G 邊緣、機器人、自動駕駛車，甚至是虛擬化身的數位孿生內容。NVIDIA 上週宣佈將使用 Omniverse 來打造名為 Earth-2 的超級電腦，專門用於建立地球的數位孿生內容來預測氣候變遷情況。

隨著超級電腦吃下愈來愈多的資料分析、AI、模擬及視覺化作業負載，便將 CPU 擴展到支援運行大型複雜系統所需，且數量日漸增加的通訊任務。資料處理器卸載了部分作業，以減輕 CPU 的壓力。

NVIDIA BlueField DPU 是一款完全整合的系統單資料中心平台，能夠卸載和管理資料中心的基礎設施任務，而不是讓主機處理器來做這些工作，這麼一來便能擁有更強大的安全性，且更有效地協調超級電腦處理各項作業。

這個架構加上 NVIDIA Quantum InfiniBand 平台，提供最佳的裸機效能，又以原生方式支援多節點租戶隔離。

而零信任的做法，也提高了這些新系統的安全性。

BlueField DPU 將應用程式與基礎設施隔離開來。最新的 BlueField 軟體平台 NVIDIA DOCA 1.2，支援新一代分散式防火牆及更廣泛使用線路速率資料加密技術。假設有人已經入侵資料中心，NVIDIA Morpheus 會利用支援深度學習的資料科學來即時偵測入侵者的活動。

新的網路技術將加速上述各項趨勢的發展。

NVIDIA 在上週還宣布推出 400Gbps InfiniBand 平台 NVIDIA Quantum-2，由 Quantum-2 交換器、ConnectX-7 網路卡、BlueField-3 DPU，以及用於新網路架構的新軟體所組成。

NVIDIA Quantum-2 提供了裸機高效能和安全多租戶的優點，讓下一代超級電腦具備安全性、雲端原生支援能力以及更高的使用率。

** 基準應用程式：Amber、Chroma、GROMACS、MILC、NAMD、PyTorch、Quantum Espresso；Random Forest FP32、TensorFlow、VASP | GPU 節點：雙插槽 CPU 搭配 4 個 P100、V100 或 A100 GPU。