雲端原生超級運算已經到來:什麼是雲端原生超級電腦?

作者 Rick Merritt

雲端原生超級運算是超級運算領域的下一個大事。如今這個大事件已經到來,助力我們應對最棘手的高效能運算 (HPC) 和人工智慧 (AI) 應用。

英國劍橋大學正在當地建構一台雲端原生超級電腦;美國有兩個研究團隊正在分別開發雲端原生超級運算的關鍵軟體。

洛斯阿拉莫斯國家實驗室 (Los Alamos National Laboratory) 與統一通訊框架聯盟 (Unified Communication Framework Consortium) 合作,正助力實現加速資料演算法的能力。俄亥俄州立大學正更新訊息傳遞介面 (MPI) 軟體以強化科學模擬。

NVIDIA 正透過最新的 DGX SuperPOD 向全球用戶提供雲端原生超級電腦。DGX SuperPOD 包含 NVIDIA BlueField-2 資料處理器 (data processing unit; DPU) 等關鍵組成,現在已經投入生產。

那麼,什麼是雲端原生超級運算?

就像 Reese 的花生醬夾心巧克力一樣,雲端原生超級運算融合了兩項業界領先的技術優點。雲端原生超級電腦融合了高效能運算的強大運算力和雲端服務的安全性與易用性。

換個角度看,雲端原生超級運算提供一個效能強如 TOP500 超級電腦的 HPC 雲端,它在不犧牲應用效能的同時允許多個用戶安全共享。

cloud-native supercomputer chart
BlueField DPU 透過支援安全、通訊和管理任務的卸載來創造高效的雲端原生超級電腦

雲端原生超級電腦有何功能?

雲端原生超級電腦有兩個關鍵功能。

首先,它允許多個用戶共享一台超級電腦,同時確保每個用戶的應用安全性和私密性。這種能力被稱為「多租戶隔離」,在當今的商業雲端運算服務中十分普遍,但一般不會出現在技術和科學應用的 HPC 系統中,因為在這些系統中,裸機的效能是首要考量,而安全服務會降低系統效率。

其次,雲端原生超級電腦使用 DPU 來處理儲存、租戶隔離安全和系統管理等任務。這樣可以卸載 CPU,使其專注於處理用戶的應用程式任務,從而最大化系統的整體效能。

如此一來,超級電腦便能在不損失效能的情況下實現雲端原生服務。DPU 未來將能處理更多的卸載任務,從而使系統在運行 HPC 和 AI 應用保持最高的運行效率。

雲端原生超級電腦如何運行?

如今,超級電腦通常有兩個「大腦」── CPU和加速器 (一般為 GPU) 。

加速器集結了數千個處理核心,可為 AI 和 HPC 作業負載中最重要的平行運算提供加速。CPU 是針對需要快速序列處理的演算法而設計的,但隨著其管理的系統日益龐大且日漸複雜,通訊的層數不斷增加,導致 CPU 的負擔越來越重。

雲端原生超級電腦導入第三個「大腦」── DPU,協助建構更快、更高效的系統。DPU 能夠卸載安全、通訊、儲存等需要由現代系統管理的工作。

超級電腦的專用通道

在傳統的超級電腦中,運行中的運算任務有時不得不停下來等待 CPU 去處理通訊任務,這是業界熟知的問題,被稱為系統雜訊。

在雲端原生超級電腦中,運算和通訊是平行處理的。這就像在高速公路上開設第三條車道一樣,能夠讓所有流量變得更加順暢。

俄亥俄州立大學 MVAPICH 實驗室是 HPC 通訊領域的專業機構,該實驗室的早期測試顯示,在雲端原生超級電腦執行某些 HPC 作業的速度是傳統電腦的 1.4 倍。該實驗室展示結果亦顯示,雲端原生超級電腦與既有 HPC 系統在運算和通訊功能中達到 100% 重疊,且效能高出 99%。

專家對於雲端原生超級運算的見解

這就是全球各地陸續推出雲端原生超級運算的原因。

劍橋大學研究運算服務部門總監 Paul Calleja 表示:「我們正在打造歐洲第一台科研雲端原生超級電腦,以雲端原生的 InfiniBand 服務提供裸機效能。按照 2020 年 11 月 TOP500 榜單,這套系統躋身前 100 名,它將使我們的研究人員能夠運用超級運算架構領域的最新成果來充分優化他們的應用。」

HPC 專家正為雲端原生超級電腦的進一步發展鋪路。

統一通訊框架聯盟總監 Steve Poole 表示:「由業界和學界頂尖成員組成的 UCF 聯盟正在打造能實現未來雲端原生超級運算所需的生產級通訊框架和開放標準。」該聯盟的成員包括來自 Arm、IBM、NVIDIA、美國國家實驗室和多所美國大學的代表。

俄亥俄州立大學計算機科學與工程系教授暨網路運算實驗室主任 Dhabaleswar K. (DK) Panda 表示:「我們的測試顯示,雲端原生超級電腦的架構效率能夠進一步提升超級電腦的 HPC 效能,並實現新的安全功能。」

進一步了解雲端原生超級電腦

欲了解更多訊息,請瀏覽 NVIDIA 關於雲端原生超級運算的技術概述。您還可以查看更多關於位於劍橋大學的新系統NVIDIA 全新的雲端原生超級電腦的資訊。

欲了解 HPC 和 AI 等領域的最新進展,請觀看 GTC 大會的主題演講