性能躍升:A100 GPU 助力高效能運算中心加速科學發展

作者 DION HARRIS

全球有六個超算中心率先採用 NVIDIA Ampere 架構。 他們將用它把科學帶入從天體物理學到病毒微生物學等領域的百萬兆級運算時代。

這些位於美國和德國的高效能運算中心(HPC)將共計使用近 13,000 個 A100 GPUs

這些 GPU 的總峰值性能超過 250 petaflops,將被用於使用 64-bit 浮點數學運算的模擬。而對於使用混合精度數學和利用 A100 GPU 對稀疏性支持的 AI 推論工作,它們可提供驚人的 8.07 exaflops 性能。

研究人員將運用這一強大性能從多個維度推動科學發展。他們計劃模擬更大型的模型、訓練和部署更深入的網路,並開拓運用 AI 來輔助模擬的新興混合領域。

阿貢國家實驗室是首批 NVIDIA DGX-A100 系統的使用者之一。圖片由 Argonne 國家實驗室提供

阿貢國家實驗室(Argonne National Laboratory)的研究人員將通過模擬冠狀病毒(由多達 150 萬個原子組成)刺突蛋白的關鍵部分來研發新冠病毒疫苗。

阿貢國家實驗室運算生物學家 Arvind Ramanathan 表示,刺突蛋白分子很難模擬,但 A100 可以加快對這些子系統的模擬,讓我們了解這種病毒如何感染人類。 阿貢國家實驗室將採用一個由 24 個 NVIDIA DGX A100 系統組成的叢集。

他還表示,在其他計劃中,“由於一次可以掃描不計其數的藥物,我們的新藥研發能力明顯增強。我們可能會了解之前所無法了解的知識,比如兩種蛋白質如何相互結合等。”

A100 為科學研究導入 AI

Ramanathan 表示:“許多工作難以在電腦上模擬,因此我們可以運用 AI 來智慧指導下一步的採樣地點和時間。”

“科學家使用 AI 引導模擬這一新興趨勢只是冰山一角。 GPU 將把生物樣品的處理時間縮短至少兩個數量級”。 Ramanathan 補充道。

美國國家能源研究科學計算中心(NERSC)有望成為全美第一批 A100 使用者中,規模最大的使用者。這座位於加利福尼亞州柏克萊(Berkeley, Calif.)的計算中心正在與惠普(Hewlett Packard)合作,在其預製的百萬兆級系統 Perlmutter 中部署 6200 個 GPU。

NERSC 主任 Sudip Dosanjh 表示:“在 NERSC 科學和演算法領域,一個 V100 GPU 的性能比我們現今一代 Cori 系統上的 KNL CPU 節點高出 5 倍,我們預期有了 A100 助力的 Perlmutter 性能會更加強大。”

百萬兆級運算團隊使用 AI 進行模擬

NERSC 的百萬兆級運算專門團隊已為 Perlmutter 設定了近 30 個計劃,這些項目採用了大規模模擬、資料分析或深度學習技術。一些計劃將高效能運算與AI相結合,比如使用強化學習控制光源實驗的項目、使用生成模型在高能物理探測器上重現成本昂貴的模擬等。

NERSC 的 2 個高效能運算應用程式,已經原型化了 A100 GPU 雙精度 Tensor 核心的使用。相比上一代 Volta GPU,它們的性能顯著提高。

NERSC 的高效能運算性能工程師 Christopher Daley,在 GTC 線上大會一次演講中表示,未來的百萬兆級系統將使用專為 10000 路平行 Perlmutter GPU 產品而優化的軟體。 NERSC 支持天體物理學、地球科學、核聚變和基因組學等領域的近千種科學應用。

NERSC 的首席架構師 Nicholas Wright 表示:“在 Perlmutter 上,我們需要支持用戶所需和期望的所有編程模型的編譯器,包括 ​​MPI、OpenMP、OpenACC、CUDA 和經過優化的數學函示庫。而這些在 NVIDIA HPC SDK 上都有。”

德國努力繪製大腦圖譜

AI 將成為 全新 70 petaflops系統 首批 A100 應用的重點技術,該系統由法國 Atos 專為德國西部尤利西超算中心(Jülich Supercomputing Center)設計。

比如能夠作出快速、短期天氣預報的 Deep Rain 將對傳統系統(進行大規模,但速度慢的大氣模擬)進行補充。另一個計劃打算建構人腦纖維圖集,結合數千張高解析度 2D 腦圖像進行深度學習。

尤利西採用的新型 A100 系統還將幫助研究人員,進一步理解結合夸克(物質的亞原子構造模組)所具有的強大力量。氣象科學計劃將可以建立地球地表和地下水流的宏觀模型。

理論物理學家 Dirk Pleiter 目前管理尤利西應用技術研發團隊。他表示:“許多應用程式都受到儲存記憶體的限制。因此,我們最感興趣的是 A100 儲存記憶體佔用量和記憶體頻寬的增加情況。”

全新 GPU 能夠將雙精度數學運算速度提高多達 2.5 倍,而這也是一項研究人員迫切需要的功能。他表示:“我認為一旦人們發現有機會提高運算效能,他們會非常希望使用 GPU。”

資料密集型系統歡迎 NVLink

在尤利西以南約 230 英里處的卡爾斯魯厄技術學院(Karlsruhe Institute of Technology, KIT)與聯想合作建立了一部全新的 17 petaflops 系統。該系統將在 NVIDIA Mellanox 200 Gbit/s InfiniBand 網路上整合 740 個 A100 GPU,從而解決多項重大挑戰,包括:

  • 用於氣象科學的千米級大氣模擬
  • 對抗新冠病毒的研究,包括對 Folding@home 的支持
  • 大型強子對撞機對希格斯玻色子以外粒子物理學的探索
  • 可能取代鋰離子電池的新一代材料研究
  • AI在機器人技術、語言處理和可再生能源中的應用

KIT 超算中心主任、運算科學與數學教授 Martin Frank 表示:“我們的主要工作是資料密集型模擬和 AI 工作流,因此我們非常需要能夠連接新 GPU 的第三代 NVLink。”

他補充說:“我們也十分期待多執行個體 GPU 功能。該功能可以讓每個節點最多擁有 28 個 GPU,而不是原來的只有 4 個節點,這將使我們的許多應用都大大受益。”

在慕尼黑郊外,馬克斯·普朗克研究所(Max Planck Institute)的電腦中心正在與聯想合作建構一個名為 Raven-GPU 的系統。該系統由 768 個 NVIDIA A100 GPU 趨動,將支持天體物理學、生物學、理論化學和新材料科學等領域的工作。該研究所的目標是在今年年底之前安裝 Raven-GPU,並且現在正在接受將應用程式移植到 A100 方面的請求。

印第安納大學系統對抗網路安全威脅

印第安納大學(Indiana University)正在建造 Big Red 200,一個 6 petaflops 的系統。該系統將使用 256 個 A100 GPU,有望成為美國大學中速度最快的超級電腦。

該計劃於 2019 年 6 月發布,是最早採用惠普公司 Cray Shasta 技術的學術中心之一。其他學術中心也將在未來的百萬兆級系統中使用這項技術。

Big Red 200 將運用 AI 對抗網路安全威脅。它還將解決遺傳學方面的巨大挑戰,幫助實現個人化醫療,為氣候建模、物理學和天文學方面的工作提供支持。

主視覺照片:柏克萊加州大學的 Shyh Wang Hall —— NERSC Perlmutter 超級電腦的所在地