軟體定義、硬體加速的可程式設計 InfiniBand NDR 網路助力 Exascale 等級的人工智慧和高效能運算平台

作者 NVIDIA

NVIDIA (輝達) 於 SC20 大會上,宣布推出 NVIDIA® Mellanox® 400G InfiniBand,這是全球首個 400Gb/s 網速的端到端網路解決方案,可為全球的人工智慧 (AI) 和高效能運算用戶提供最快的網路互連效能,同時成功將運算、可程式化和軟體定義三種技術結合,成為業界領先的軟體定義、硬體加速的可程式設計網路,為全球的研究人員和工程人員設計新一代運算系統,並針對應用效能的提昇提供了新的思維。

NVIDIA Mellanox InfiniBand NDR 產品是第 7 代的 InfiniBand 產品,利用 100Gb/s的 PAM4 Serdes 技術,實現了較前一代產品兩倍提升的 400Gb/s 單埠傳輸頻寬,同時透過增加更多、更快的加速引擎,實現了更強大的運算和通訊能力。

NVIDIA Mellanox NDR 400G InfiniBand 產品系列

「Speed of Light」是關於 NDR InfiniBand 技術的第一個特徵,透過加倍的頻寬、更快的訊息率 (Message Rate),讓基於 RDMA、GPU Direct RDMA 和 GPU Direct Storage 等先進通訊技術的應用效能得到了進一步的提升。InfiniBand 網路是自然的 SDN 網路,可以讓使用者根據應用的屬性來選擇各種不同的網路拓撲,以達到最優化的效能,如 Fat-Tree、DragonFly+、各種 Torus 等。例如,透過 DragonFly+網路拓撲可以同時在四個交換器 Hop 內達到一百萬個節點間的同時通訊,這個規模遠遠超出了 E級超算 、甚至 10 E 級超算或百 E 級超算需要的規模;同時其自然的 SDN 屬性也讓動態路由和網路壅塞控制變得更容易。InfiniBand 動態路由已被廣泛地應用到各種網路拓撲中,成為優化通訊效能的關鍵角色,如美國橡樹嶺國家實驗室的 Summit 超級電腦就透過動態路由將超級電腦中心全網的通訊效率從 60% 提升到了 96%。NDR InfiniBand 交換器在 1U 空間內可以支援 64 個 400Gb/s 的埠或 128 個 200Gb/s 的埠,提供較上一代交換器 3 倍的埠密度;它還將交換器系統的聚合雙向吞吐量提高了 5 倍,達到每秒 1.64 petabits,是全球埠數最多、交換容量最大的交換器。

硬體加速是 InfiniBand 網路的最大特色,隨著越來越多的加速引擎被添加到 InfiniBand 硬體中,進一步加大了其相對於其它網路技術的領先性。舉例來說,NDR InfiniBand 實現了對業界而言最困難的 All2All和 Allreduce 通訊的硬體卸載,能讓訊息傳遞介面 (MPI) 通訊的效能提升四倍;NDR InfiniBand 對於 MPI Tag Matching 的硬體卸載實現了 1. 8 倍的 MPI 通訊效能提升;NDR InfiniBand 可以實現對於 NVMeoF 的全面卸載,NVMeoF 的 Target 卸載可以讓儲存系統在幾乎不消耗 Target 端 CPU 的前提下,達到數百萬級的 IOPS;NVME SNAP 可以實現對於 NVMeoF 的 Initiator 端的卸載,同時可以將 InfiniBand 網路模擬成 NVMe 磁碟提供給主機 CPU,解決目前很多 OS 還沒有 NVMeoF 的 Initiator 支援問題,實現了對任何 OS,無論是虛擬化還是實體機的全面 NVMeoF 的支持;InfiniBand FIO SNAP 可以實現對於文檔儲存的本地模擬,讓任何 OS 都可以享受最先進的分散式文檔儲存系統的效能優勢。

InfiniBand SHARP (Scalable Hierarchical Aggregation and Reduction Protocol) 技術徹底消除 MPI 或 NCCL (NVIDIA Collective Communications Library) 的 Allreduce 操作中的多打一通訊帶來的 Incast Burst 問題,在保證所有埠全線速、共計 12.8Tb/s 或 25.6Tb/s 的資料登錄的前提下,實現在交換器上的 Allreduce、Barrier、Reduce 和 Broadcast 運算,在 NDR 交換器上較前一代交換器提升 32 倍的運算效能。InfiniBand SHIELD (Self-Healing Interconnect Enhancement for Intelligent Datacenters) 技術實現了網路中鏈路故障的自修復,讓網路無需等待管理軟體的參與來恢復鏈路故障,較傳統的軟體故障恢復速度快千倍以上的效能,讓應用不再受困鏈路故障的干擾以提升應用的效能。

InfiniBand 安全卸載是針對 Cloud Native 的應用場景,InfiniBand 已取得 Open Stack 的官方軟體支援,透過自帶的硬體 IPSec、TLS、AES、Root of Trust 等功能,讓資料不論是在網路中移動時,還是在向儲存中落盤時都能以線速效能得到加解密,實現在虛擬化環境或容器化環境中的安全保障。

軟體可程式設計讓 InfiniBand 的應用場景得到了進一步的延伸,可程式化的 NDR InfiniBand 不僅可以讓使用者處理資料的標頭 (header),還可以針對資料的路徑進行操作,例如使用者可以自訂規則並對資料路徑進行操作,或是讓資料無需送到 CPU 便可直接在網路中進行預處理。使用者還可以針對資料的通訊特徵進行提取,接著利用 AI 技術進行訓練,得到不同應用資料的通用通訊特徵,若發現有異常通訊資訊,則可以向管理員主動發出預警。

NVIDIA Mellanox NDR 400G InfiniBand 亮點

NDR InfiniBand 以其優異的效能和靈活廣泛的使用場景吸引了許多合作夥伴共同打造生態系,包含 Atos、戴爾科技 (Dell Technologies)、富士通 (Fujitsu)、浪潮、聯想 (Lenovo) 和美超微 (Supermicro) 等基礎架構製造商,以及 DataDirect Networks (DDN) 與 IBM Storage 等儲存基礎架構商。各家公司都已開始研發其新一代產品,並展現對 NDR InfiniBand 的支持。而包括微軟 Azure 公有雲、美國 Los Alamos 國家實驗室、歐洲 Jülich 超級電腦中心等全球領先用戶都紛紛表示,期待能盡快採用 NDR InfiniBand 以享受 NDR 的技術優勢。

NVIDIA 網路事業部門資深副總裁 Gilad Shainer 表示:「對我們的人工智慧客戶而言,最重要的工作是應對越來越複雜的應用程式,它們都需要更快、更聰明且更具擴充性的網路。NVIDIA Mellanox 400G InfiniBand 的巨大吞吐量與智慧加速引擎,讓高效能運算、人工智慧與超大規模雲端基礎架構可以透過更低的成本與複雜性,達成無與倫比的效能。」

Exascale 等級的 AI 和高效能運算時代已經來臨,同時也帶來新的挑戰。由軟體定義、硬體加速、針對網路運算的可程式設計 NDR InfiniBand 產品將於 2021 年第二季推出樣本。NDR 產品的出現,將會大幅提升 Exascale 等級的 AI 和高效能運算系統的效能和效率,並簡化系統的管理和操作、降低系統的 TCO,進而保護資料中心的投資。

掌握 NVIDIA 最新動態

請訂閱 NVIDIA 官方部落格或追蹤 FacebookTwitterLinkedInInstagram。瀏覽 NVIDIA 相關影片及圖片,請至 YouTubeFlickr

關於 NVIDIA (輝達)

NVIDIA (輝達) 為人工智慧運算公司,自 1999 年發明 GPU 起,成功促進 PC 電競市場的成長並重新定義現代電腦繪圖卡產品,掀起電腦平行運算革命。近年來 GPU 深度學習也促發被視為下一個運算時代的人工智慧,透過 GPU 以類人腦方式運作於電腦、機器人與自駕車等,來感知並解讀真實世界。欲瞭解更多資訊,請瀏覽 https://blogs.nvidia.com.tw

新聞聯絡人

NVIDIA
亞太資深公關經理 杜佳祐
電話:(02)6605-5856
傳真:(02)8751-1809
E-mail: Melody Tu
世紀奧美公關顧問
蔣葳/黃晨瑀/詹淑君
電話:(02) 2577-2100
分機 808/826/807
傳真:(02) 2577-1600
行動電話: 0989-540634/ 0931-309553/ 0975-251507
E-mail: Vivian Chiang/ Bonnie Huang/ Shirley Chan