改朝換代:如何讓全球 TOP500 名單上的超級電腦不只是加快運算速度,還變得更聰明

作者 Chintan Patel

在全球這批運算速度最快的超級電腦中,有近七成皆使用 NVIDIA 的技術,而且當中對越來越多超級電腦使用人工智慧 (AI) 技術,協助研究人員在更短時間內發現新的事物。

這些世界上運算速度最快的超級電腦,不只是比過去提高了運算速度,也變得更聰明,還能支援處理更多種類的作業負載。

SC20 大會上發佈的全球最高速超級電腦 TOP500 最新榜單中,有近七成的超級電腦都採用 NVIDIA 的技術,這包括前十名中的八台。

而在超級運算領域內最負盛名的戈登貝爾獎 (Gordon Bell Prize) 入圍名單中 (本週將於 SC20 大會公布得獎名單),有四組入圍提名的研究團隊,均使用 AI 來推動發現研究成果。

他們的共通點為使用 NVIDIA 的端到端 HGX AI 超級運算平台,這個平台加快處理科學運算、資料分析及 AI 等作業負載。這一切始於高效能晶片及超高速智慧網路,然而最終都回歸到全球採用的 NVIDIA 資料中心規模平台,以協助研究人員進行各項偉大的科學研究工作。

把 AI 納入高效能運算 (HPC) 領域和跨越傳統超級運算中心領域的平台,這項轉變代表著這個領域的重大變革。打從 Seymour Cray 在1964年推出 CDC 6600 以來,這個領域便不斷致力於利用規模日漸龐大、執行能力越來越強的機器,以執行需要繁雜運算作業的模擬和建模作業。

最新的 TOP500 榜單不只能看到超級電腦在進行高效能運算的 Linpack 成績:

  • 速度紀錄:以傳統的超級運算效能為基準 (也就是執行 FP64 雙精度浮點運算所需的速度) 進行測量,NVIDIA 的技術加快了這些全球最快運算叢集的執行速度,前十名的超級電腦中有八台採用 NVIDIA 的技術。其中包括排名第五的Selene 超級電腦,這是NVIDIA 自家的超級電腦,也是世界上最強大的商用系統。還有新加入的系統,像是排名第七的 JUWELS (德國於利希研究中心) 及排名第十的 Dammam-7 (沙烏地阿拉伯國家石油公司)。
  • 「智慧」紀錄:使用 AI 運算效能基準的混合精度標準 HPL-AI 來進行測量時,搭載 NVIDIA 技術的超級電腦同樣位居前幾名,像是橡樹嶺國家實驗室 (Oak Ridge National Laboratory) 的 Summit 超級電腦為55 exaflops,NVIDIA 的 Selene 超級電腦為 0.25 exaflops。
  • 環保紀錄:NVIDIA DGX SuperPOD 系統在 Green500 最高運算效率超級電腦榜單上勇奪冠軍,其運算效率寫下全新世界紀錄,達到每瓦2 gigaflops。整體而言,在 Green500 榜單上的前 30 名中,有25台超級電腦搭載 NVIDIA 的技術。

AI 超級運算時代正飛速發展

或許這是最讓人刮目相看的成就:我們已經穩妥地提前完成 exascale 等級的運算目標。

義大利的 CINECA 超級計算中心十月時公佈將計畫打造全球最強大的 AI 超級電腦 Leonardo,預計 AI 運算效能將達到 10 exaflops。捷克、盧森堡及斯洛維尼亞也趕上這波熱潮,發佈了多台全新 EuropHPC AI 系統。除了歐洲之外,亞洲與北美地區也將建造更多 AI 超級電腦。

原因在於現代的 AI 使用 NVIDIA GPU、NVIDIA CUDA-X 函式庫,還有世界上唯一的智慧全加速網路內運算平台 NVIDIA Mellanox InfiniBand,它們極為傑出的平行處理能力將大量資料注入先進的神經網路,打造出現實世界中這些精密複雜的模型,使得科學家們能夠完成透過其它方式無法處理的研究案。

比起過去入圍者用以進行模擬作業的最大規模系統,入圍今年戈登貝爾獎的勞倫斯伯克利國家實驗室 (Lawrence Berkeley National Laboratory) 運算研究部門的團隊運用 AI,將其分子動力學的模擬規模至少擴大了百倍。

各項作為都是為了推動科學發展

系統速度很重要沒錯,更重要的是在現實環境中的用途。這正是各位會看到搭載 AI 的新型超級電腦,會投入於對抗新冠肺炎病毒前線的原因。

入圍今年戈登貝爾特別獎的四組團隊中,有三組靠著 NVIDIA 的 AI 技術,投注精力於對抗遍及全球的新冠肺炎病症上。

一支研究團隊訓練出的 AI,在勞倫斯利弗莫爾國家實驗室那台於 TOP500 榜單奪下第三名的 Sierra 超級電腦上,只要短短23分鐘便能從 16億種化合物中辨識出新的候選藥物。

另一支研究團隊在橡樹嶺國家實驗室那台於 TOP500 榜單中排名第二的 Summit 超級電腦上,使用27,612個 NVIDIA 的 GPU,每秒對兩個關鍵的 SARS-CoV-2 蛋白結構進行19,028種潛在藥物成分測試。

另一支團隊則是使用 Summit 超級電腦來建立一項 AI 工作流程,以模擬主要的病毒感染機制 SARS-CoV-2 棘狀蛋白是如何攻擊人類的血管張力素轉化酶2 (ACE2) 受體。

各領域紛紛採用具擴展能力的 NVIDIA HGX AI 超級運算平台 (當中包括從處理器到網路和軟體在內),科學家可以在雲端運算服務公司的超大規模資料中心與超級電腦中運行其作業負載。

在這個統一的平台上可以融合處理高效能運算、資料分析及 AI 等作業負載。這個平台上有230萬名開發者,支援超過1,800個加速應用程式,以及各種 AI 框架與包括 DASK 和 Spark 在內的熱門資料分析框架,使得科學家與研究人員能夠在搭載 GPU 的 x86、Arm 及 Power 系統上,即時處理各項工作。

NVIDIA NGC 目錄還為最新版本的高效能運算及 AI 應用程式,提供了經過效能最佳化的容器,科學家與研究人員就能快速完成部署,把心力放在推動科學發展上。