SC18:在 NVIDIA GPU 的推波助瀾下,對高效能運算的需求持續激增

作者 Christina Olmsted

NVIDIA 在高效能運算(HPC)領域裡的地位日漸吃重,一如高速計算技術本身早已成為用以解決當代各項難題的關鍵。

在美國德州達拉斯舉行之 SC18 國際高速計算年會正式揭幕前的幾個小時,NVIDIA 執行長黃仁勳對台下的七百名研究人員、實驗室主管和企業高管,介紹在背後推動 NVIDIA 朝著「縱向擴充」和「橫向擴張」發展的力量;縱向擴充指著重於大型超級電腦系統,而橫向擴張指讓研究人員、資料科學家和開發人員能利用多個 GPU 的強大功能。

黃仁勳對台下的嘉賓們說:「高效能運算這個產業從根本上發生了變化。它最早是用在科學運算領域,架構在很大程度上也出現縱向擴充的情況。本來的目的是模擬物理定律裡的基礎原理。我們日後會繼續這麼做,不過我們有了機器學習這個新工具。」

過去十年在企業和研究人員之造成軒然大波的機器學習,現在可以搭配強大的 GPU 加速機器進行縱向擴充,還能利用飛快成長的能力將工作量橫向交給遍地開花、使用 GPU 的資料中心來處理。

擴大全球超級電腦的規模

原因在於資料科學家面臨的難題,跟超大規模運算社群十多年來面臨的難題別無二致:就算長期推動提升 CPU 運算能力的摩爾定律已經邁向終點,也要繼續加速執行各項研究工作。

根據最新發布的全球高速超級電腦 Top500 排行榜,今年的超級電腦 500 強排行榜裡有 127 具採用 NVIDIA 的技術,由 GPU 為榜上半數的機器提供整體處理能力。
除了全球速度最快的兩台超級電腦是採用 NVIDIA 的技術,在節能表現最佳的超級電腦 Green500 排行榜上,前25名的超級電腦便有 22 台使用 NVIDIA GPU。

黃仁勳說:「全球速度最快的超級電腦、美國速度最快的超級電腦、歐洲速度最快的超級電腦,還有日本速度最快的超級電腦,都是採用 NVIDIA Volta V100。」

一個架構 – 橫向擴張、縱向擴充

NVIDIA 將這種能力擴大到全球各地的資料中心。在 NVIDIA 推出具有革命性多精度 Tensor Core 的 T4 Cloud GPU 後不久,各地採用的速度便打破了紀錄。黃仁勳說現在可以在 Google Cloud 平台上使用 T4 Cloud GPU,全球各大電腦製造商的 57 款伺服器也是用這款 GPU。

黃仁勳說:「Google Cloud 的動作之快讓我驚訝不已,我們生產出 T4 Cloud GPU 才不過三十天,就已經大規模部署在雲端了。」

縱向擴充的另一例:NVIDIA 的 DGX-2(單一節點上有著 16 個以 NVLink 技術連接的 V100 GPU)產生出 2 petaflops 的處理能力。

黃仁勳數度向聽眾展示這套系統,打趣說它「超重」,要「很有力」才能搬動它,同時還高舉由頂尖 OEM 銷售的 HGX-2 機板,兩片 HGX-2 機板構成了 DGX-2 的核心。

「這便是『縱向擴充』的證明,是『縱向擴充』運算的全部意義。」黃仁勳說。
黃仁勳說它是運行在開發人員花了十年心血構建出的單一軟體生態系統上,開發人員如今便能立即橫向擴張到愈來愈多的 GPU 上。

黃仁勳宣布推出 NGC 容器登錄服務的全新多節點 HPC 及視覺化容器,讓超級電腦的使用者能在大規模叢集上運行 GPU 加速應用程式。NVIDIA 還宣布了一項新的 NGC-Ready 計畫,其中包括大型供應商推出的工作站和伺服器產品。

這些系統已經準備好在一個系統或多個系統上運行軟體,而這些軟體的數量還在不斷增長。「這個 app 商店不是提供你想要的 app,而是提供你需要的 app。這些 app 都經過精心維護、測試和優化。」黃仁勳說。

相容的架構

這些都是建立在 NVIDIA 已經發展了十多年的 CUDA 基礎上。黃仁勳說可以透過這個基礎,「將過去的投資帶到未來」。

每個新版的 CUDA(現在是 version 10.0),效能都比上一代更優秀,而每個新的 GPU 架構,像是 Tesla、Fermi、Kepler、Maxwell、Pascal、Volta 和最新的 Turing,都進一步加快了在 CUDA 上運行之軟體的速度。

「軟體方面的投資要一段時間才會見到回報,而硬體方面的投資報酬則是立竿見影。」黃仁勳說。

GPU 促進 HPC 出現突破性發展

這項表現為頂尖研究人員帶來了回報。黃仁勳表示橡樹嶺國家實驗室剛投入運作的全球速度最快 Summit 超級電腦,便是使用 NVIDIA 的 GPU,而入圍 ACM 戈登貝爾獎決賽的六組隊伍裡,也有五隊是使用 NVIDIA 的 GPU。

週四 SC18 大會落幕時,將會公布獲得戈登貝爾獎冠軍的隊伍,以表揚他們在 HPC 領域的傑出成就。

企業與機器學習研究人員使用 GPU 的情況日漸普遍,黃仁勳指出整個電腦產業正朝著高效能運算的方向發展。

資料科學家可以透過用於加速資料分析與機器學習的開放源碼軟體套件 RAPIDS,完全在 NVIDIA GPU 上執行端到端資料科學訓練作業。黃仁勳表示此舉跟資料科學家的工作方式一模一樣。

RAPIDS 靠著 NVIDIA CUDA 原始型別來進行低階計算優化,藉由使用者易用的 Python 介面使用 GPU 平行運算與高記憶體頻寬。RAPIDS 開放源碼軟體庫模仿 pandas API,建立在 Apache Arrow 上以將互通性和效能提升到最高程度。

「我們讓各位很容易就能使用這個完全採用開放源碼型態的平台。」黃仁勳說。

辨識花朵的能力

黃仁勳還展示了最新一版的花朵辨識推論演示內容,每當他展示這項內容時,功能似乎愈來愈驚人。黃仁勳一開始是說明運行 Intel CPU 的系統每秒鐘對五朵花進行分類,後來展示了在 Google Cloud 上運行的新款 T4 GPU,利用 NGC 在一秒鐘內可以辨識五萬張以上的花朵圖片。

黃仁勳透過一個精美的太空星系模型,將聽眾們帶到一個約莫是銀河系五分之一大小的矮小星系,展示了 NVIDIA 為 ParaView 資料分析與視覺化應用程式推出的擴充元件 IndeX,利用 GPU 即時處理超大資料集的出色效能。

聽眾們邊看著演示內容,黃仁勳按下幾個按鍵,便將一個 7TB 的資料集變成一個互動性十足的氣體模擬內容,星系繞著中軸轉動之際,氣體便會隨著各個方向流動。

黃仁勳還展示了運行著 COSMO WRF 和 MPA 等重要工具的 GPU 加速系統,藉由建立畫面精美的阿爾卑斯山區天氣模型,解決 HPC 領域其中一項最棘手的難題,也就是天氣預報。

「我們現在不是在看影片,而是在研究未來如何預測微型氣候。」黃仁勳說。

這只是研究人員要求使用 GPU 系統的其中一個最新例子,還有拜 GPU 之賜,目前想要使用全球速度最快之超級電腦的需求,成長速度也是史上最快。