讓數據奔馳在快車道上:NVLink 如何釋放應用程式效能

作者 Geetika Gupta

如果你得經歷擁擠交通才能到達工作地點開始你的每一天,你應該會很希望四線道可以拓寬成八線道。

應用程式也會遇到交通壅塞。當 CPU 和 GPU 之間稀少、狹窄的通道 — 一般就是 PCI Express (PCIe) 匯流排 — 無法跟上數據流的速度時,就會發生這種情況。

GPU 可以快速地處理大量數據。但是唯有當龐大數據可以被源源不絕傳送至 GPU,這項能力才可以徹底發揮,而 PCIe 互連技術往往無法跟上節奏。

為避免這樣的「交通壅塞」,我們針對 CPU 和 GPU 間,以及 GPU 間發明了更快速的互連技術,我們稱它為 NVLink

這是全球首個針對 GPU 的高速互連技術。NVIDIA NVLink 為下一世代的高效能運算(HPC)創造了數據高速公路。比起 PCIe,這項技術能讓 GPU 和 CPU 彼此交換數據的速度提升5至12倍之多。

下方影片展示 NVLink 的運作方式

採用 NVLink,應用程式的執行速度可以加快兩倍:

當我們去年發表 NVLink 時,產業界相當關注。IBM 正在將此技術整合至未來的 POWER CPU中。美國能源部也宣布其下一世代旗艦級超級電腦將採用 GPU 及 NVLink。

NVLink 將被用在我們即將推出的 Pascal 架構 GPU 中。但是我們現在可以搶先了解在多 GPU 配置中,它如何透過加速數據移動來改善應用程式的效能。

FFT 演算法的速度加快兩倍以上

快速傅立葉變換 (Fast Fourier Transform, FFT) 是一種應用很廣泛的演算法,被用於地震數據處理、信號處理、影像處理,以及偏微分方程式。

FFT 所使用的伺服器,通常會透過一條 PCIe 匯流排將兩顆 GPU 連至單一CPU 插槽。為了分散FFT工作負荷,這兩顆 GPU 會交換大量的數據。然而 PCIe 會形成瓶頸,導致 GPU 只能以每秒16 gigabytes (GB/s) 的速度分享數據。

透過 NVLink 連接這兩顆 GPU,它們就能以 80 GB/s 的速度互相溝通。速度提高五倍之多。

利用 NVLink,以 FFT 為基礎的工作負載比 PCIe 系統執行速度快上兩倍。

AMBER 效能加速達 50%

AMBER 是一種分子動力學應用程式,用在以原子等級來研究物質的行為,例如癌細胞。GPU 讓研究人員能在 AMBER 上以更高的精確度來模擬分子架構,同時還能將所需時間從數周縮短至幾天。

研究人員正在建構密度更高的伺服器以執行 AMBER 和其他工作負載。許多會附加多達四個 GPU 至單一CPU 插槽。

當透過 GPU 執行模擬時,AMBER 必需持續交換數據。PCIe 速度穩定,然而使用 NVLink 連接4顆 GPU,可以將AMBER的執行速度加快30%至50%。

欲進一步了解,請下載 NVLink 白皮書