高效能運算研究人員運用 NVIDIA BlueField DPU 開創網路內運算的未來

作者 NVIDIA

在歐洲和美國,高效能運算開發人員正透過 NVIDIA BlueField-2 DPU 內的 Arm 核心與加速器大幅提升超級電腦的效能。

在洛斯阿拉莫斯國家實驗室 (Los Alamos National Laboratory;LANL) 的工作內容是與 NVIDIA 多年廣泛合作的部分,目標為提升多物理應用程式的運算速度至 30 倍。

LANL 的研究人員預期使用 NVIDIA Quantum InfiniBand 網路所採用的資料處理器 (DPU) 能大幅提升運算效能。他們運用 BlueField 及其 NVIDIA DOCA 軟體框架在運算儲存、模式配對等更多領域引領技術發展。

DPU 專用的開放式 API

這些努力亦有助於進一步定義 OpenSNAPI,該應用程式介面讓任何人都能使用 DPU。這是整合通訊框架 (Unified Communication Framework) 的其中一項專案,該聯盟為高效能應用程式提供異質運算,成員包含 Arm、IBM、NVIDIA、美國國家實驗室與美國大學。

LANL 已感受到網路內運算的強大力量,這要歸功於其建立的 DPU 儲存系統。

加速快閃記憶體 (Accelerated Box of Flash;ABoF) 結合固態儲存與 DPU 和 InfiniBand 加速器,可加速 Linux 檔案系統中最講求效能的部分。其速度較類似的儲存系統快上 30 倍,並將成為 LANL 基礎架構的關鍵元件。

LANL 近期的部落格文章中,一名研究人員表示:「ABoF 在鄰近儲存空間的位置進行運算,將資料移動降到最低,並提升模擬和資料分析流程的效率。」

德州採用雲端原生超級運算技術

德州先進電腦運算中心 (Texas Advanced Computing Center;TACC) 是最新於 Dell PowerEdge 伺服器中採用 BlueField-2 的組織,該運算中心將使用 InfiniBand 網路上的 DPU,使其 Lonestar6 系統成為雲端原生超級運算的開發平台。

TACC 的 Lonestar6 為德州農工大學 (Texas A&M University)、德州理工大學 (Texas Tech University) 與北德州大學 (the University of North Texas) 的高效能運算研究人員,及眾多研究中心與教職員提供服務。

訊息傳遞介面獲得加速

德州往東北走 1,200 英里,俄亥俄州立大學 (Ohio State University) 的研究人員展示如何透過 DPU 讓高效能運算中,最熱門的程式設計模型之一的運行速度提高達 26%。

藉由卸載訊息傳遞介面 (Message Passing Interface;MPI) 的關鍵區段,他們加速許多大規模高效能運算模擬皆採用的 P3DFFT 函式庫。

俄亥俄州立大學電腦科學與工程學系教授 Dhabaleswar K. (DK) Panda 表示:「DPU 就像為繁忙執行長處理工作的助理,因能夠為所有作業負載加速而成為主流。」該名教授亦使用團隊的 MVAPICH 開放原始碼軟體,率領 DPU 研究。

在高效能運算中心與雲端應用 DPU

對於運行如藥物開發或飛機設計等高效能運算模擬的超級電腦來說,兩位數的效能提升影響深厚。收到不少高效能運算中心索取程式碼要求的 Panda 教授表示:「任何取得此規模效能提升的雲端服務,皆能為客戶提高生產力。」

搭載如 NVIDIA SHARP 等功能的 Quantum InfiniBand 網路支援 Panda 教授的研究。

Panda 教授表示:「其他人仍在談論網路內運算,但 InfiniBand 已支援此技術。」

杜倫大學支援負載平衡

有許多歐洲的研究團隊正使用 BlueField DPU 加速 MPI 和其他高效能運算作業負載。

舉例來說,位於北英格蘭的杜倫大學 (Durham University) 正在開發軟體,在 16 節點 Dell PowerEdge 叢集上使用 BlueField DPU,為 MPI 工作進行負載平衡。該專案的首席研究員 TobiasWeinzierl 表示:「這項研究將推動全球高效能運算設施,以更有效率的方式處理更好的演算法。」

劍橋與慕尼黑的 DPU 採用

劍橋、倫敦與慕尼黑的研究人員亦使用 DPU。

倫敦大學學院 (University College London) 正在探索如何在 BlueField-2 DPU 上為託管系統排程任務。此功能可應用於在託管處理器之間移動資料,以便在需要時使用。

劍橋資料驅動探索服務 Dell PowerEdge 伺服器內的 BlueField DPU 可卸載主機 CPU 的安全性政策、儲存空間框架和其他作業,徹底發揮系統效能。

與此同時,慕尼黑工業大學 (Technical University of Munich) 的電腦架構和平行系統小組研究人員正尋找將 MPI 和作業系統任務卸載至 DPU 的方法,其亦為 EuroHPC 專案的一部分。

再回頭看美國的案例,喬治亞理工學院 (Georgia Tech) 的研究人員正與桑迪亞國家實驗室 (Sandia National Laboratories;SNL) 合作,使用 BlueField-2 DPU 加速分子動力學研究。一篇描述該研究的論文指出,目前的研究結果顯示,演算法可以加速高達 20%,且不會影響模擬的準確度。

持續擴大的網路

本月初,日本研究人員宣布推出一款採用最新 NVIDIA H100 Tensor 核心 GPU 的系統,並搭載我們有史以來最快速且最聰明的網路 NVIDIA Quantum-2 InfiniBand 平台。

日本電氣 (NEC) 將在筑波大學 (University of Tsukuba) 運算科學中心打造約 6 PFLOPS、採用 H100 的超級電腦。研究人員會將該超級電腦應用於氣候學、天體物理學、巨量資料、人工智慧 (AI) 等領域。

同時,Panda 等研究人員已經在思考如何使用 BlueField-3 DPU 中的核心。

他打趣地說:「這就像是雇用具大學學歷,而非只有高中學歷的行政助理,我希望它能完成更多卸載作業。」