NVIDIA GPU 加速運算助國立清華大學團隊勇奪國際賽事 HPC-AI 佳績

作者 NVIDIA

台灣過往以電腦硬體技術聞名世界,但軟體實力也不容小覷。尤其近年人工智慧 (AI) 技術崛起,台灣除了孕育許多出色的新創團隊,教育界也有許多年輕學子在 AI 與高效能領域的國際賽事嶄露頭角。國立清華大學資訊工程學系周志遠副教授帶領的清大團隊,繼 2019 年在全球超過一百支隊伍參賽報名的 ASC Student Supercomputer Challenge 獲得冠軍之後,又一次在 2020 年的 HPC-AI Advisory Council 中取得第二名的佳績,使台灣新一代 AI 人才再度吸引國際目光。

周教授表示:「分散式系統與高效能運算是他專精的研究領域,而系統設計最重要的目標之一就是提升運算效能。2011 年自國外學成歸國回到清華大學任職後,即察覺 NVIDIA CUDA 的異構運算加速技術崛起,透過 GPU 能將傳統使用 CPU 的運算工作程式一舉提升五到數十倍。因此開始異構運算與 GPU 的相關研究,並訓練學生參加國際比賽,與世界的頂尖人才相互切磋。」

周教授進一步表示,雖然自己在學校也有開設 GPU 運算課程,但由於多數學生尚未有 GPU與異構運算的經驗,因此僅以教授基本程式設計方法為目標,安排部分實作作業以及當前業界的新技術趨勢分享。為了提供學生更廣泛的學習與發揮的機會,進而利用課餘時間訓練並指導學生參加國際競賽,讓學生有機會能在世界一流的超級電腦系統上,使用 GPU 解決在科學運算與 AI 應用所面臨的各種挑戰。

透過比賽不僅有助學生認識當前的技術趨勢,更能夠深入探討從硬體設備到軟體設計的細部效能優化技巧,以及體驗與國際專家學者和學生的交流。這些寶貴的知識與經驗都是在課堂中難以獲取的,因此學生也願意花費超過一年的時間積極努力參與比賽的準備和訓練。從談話中,周教授也不時流露出對於帶領年輕學子參與國際賽事的熱情與重視,並感謝長年來默默支持團隊參與競賽的各方協助,包括學校與系上的全力支持、財團法人國家實驗研究院高速網路與計算中心 (簡稱國網中心) 的技術指導、以及 NVIDIA、雲達科技 (QCT) 的經費與設備贊助。

在去年 HPC-AI 競賽指定的四個運算題目中,包括 NEMONAMD 兩個分別用於模擬海洋與分子動力的科學運算軟體,一個以自然語意深度學習模型 BERT 為題的 AI 應用,以及一個讓團隊自由發揮的 COVID-19 自選應用。周教授與團隊的自選應用是基於 AI 影像分析的胸腔 X 光診斷。這項技術目前不僅有相關的研究發表證實 AI 的準確度,更已有實際應用在醫院與病人的案例,因此相對有較多的參考資料和文獻讓學生親自實作這些方法,並與他人的結果進行比較分析。在比賽中,學生充分發揮了 GPU 對於各種應用程式的效能加速能力,並克服在比賽中遇到的各種軟硬體相容性與環境設定問題,成功在以 DGX-2NVIDIA V100 構成的超級電腦系統上完成本次競賽題目,最終順利獲得佳績。

周教授也提到,在參與國際賽事近十年的歷程中可以感受到,近年 NVIDIA 不僅大幅增強 GPU 的運算能力,更致力於改善 GPU 週邊的軟硬體技術,將 GPU 的優勢充分發揮在實際運算應用中。這些技術包括解決資料傳輸瓶頸的 NVLinkGPUDirectNVIDIA Collective Communication Library (NCCL);針對 AI 運算工作進行效能優化的 Tensor 核心cuDNN;以及協助程式開發與效能檢測的輔助工具 NVPROFCUPTINVML 等。另外,周教授也提到近年運算環境的改變與多樣性為 GPU 的使用帶來許多挑戰,包括在雲運算平台需要考慮虛擬化的影響、在邊緣或物聯網裝置上需考慮耗電量的限制等。即使在傳統資料中心與超級電腦的運算系統 (如這次 HPC-AI 比賽所使用的電腦系統),也已開始導入了使用容器 (container)的運算環境。因此,如何在不同的運算環境與運算需求下,有效使用 GPU 仍是目前重要的議題。

近年來周教授的研究以 ML Systems 為主題,探討如何從軟硬體的技術提升目前 AI 使用的機器學習及深度學習的相關運算,例如提升模型訓練時的運算效能與資源使用率、自動化管理優化整個學習過程 (ML Pipeline)。去年發表在知名國際研討會 ACM HPDC 的論文就描述了周教授團隊成功讓使用者可以在容器虛擬化平台中,有效管理與控制執行工作共享 GPU 資源的解決方案。周教授將這方法的實作軟體 KubeShare 開源在 Github,讓學界共享成果,也因此獲得國內外業界的注意而促成相關的產學合作,並順利將技術導入產品,帶來實際的產業效益。

周教授對於培育台灣下一代 AI 人才不遺餘力,除了持續自我精進學習與發表研究外,對於讓更多新世代的年輕學子投入 AI 與高效能領域的初衷保持不變,希望能讓更多的學子們了解超級電腦與 GPU 運算領域的應用與發展,並期望他們能成為改變與主導未來世界的力量。