當我們在 2007 年首次推出 Tesla GPU 加速器產品時,使用者已經開始尋求配有大容量記憶體的 GPU 板。事實上,他們希望擁有 10GB 以上的快速 (GDDR5) 記憶體來支援 GPU。使用者需要更多記憶體才能讓 GPU 加速器在大型資料集上運作,這在進行高效能運算及資料分析時極為常見。
我們的第一款產品 Tesla C870 容量只有 1.5GB,就當時技術,要研發具 10 倍以上容量的記憶體似乎是天方夜譚。
然而,這個夢想竟在 6 年後實現了。我們在本週推出 Tesla K40 GPU 加速器,此裝置以 Kepler 架構為基礎,具備 12 GB 的 GDDR5 記憶體。
更快速、容量更大、更聰明的 GPU
K40 超越前代 Tesla 旗艦產品 Tesla K20X 的鮮明特色有三:
- 更快速的效能: 可提供 1.43 Teraflop 雙精確度處理效能與 4.29 單精確度處理效能 (3 倍雙精確度處理效能)。
- 兩倍的記憶體容量: 從 K20X 的 6GB 提升至 K40 的 12GB。
- GPU Boost: 可獲得功率餘裕的全新效能強化特色,為應用程式提升額外效能。
GPU Boost
我們將GPU 加速器板設計為執行任一應用程式都不會超過 235 瓦。透過合成的高功耗小型應用程式在 GPU 設定 CUDA 核心的時脈,便能使電力不超過 235 瓦。我們的伺服器製造商夥伴將自家伺服器設計成可以在使用最大功耗執行時為GPU 散熱。
但我們也發現,大部分應用程式只消耗 160 至 180 瓦的功耗,這讓我們研發出 GPU Boost 功能,得以運用到 50 至 70 瓦的功率餘裕。
GPU Boost 運作時,您可以在 GPU 上執行應用程式,並使用簡易命令行工具檢查功率消耗量。若應用程式低於 235 瓦,您還可將 CUDA 核心時脈設定成兩種更高的提升時脈,這樣一來,便能利用新的較高提升時脈來執行所有 CUDA 核心。您只需要再次檢查電量,若低於 235 瓦,則代表可以執行,應用程式也可運用更高的提升時脈。
我們發現,GPU Boost 能為應用程式帶來 10% 至 25% 的額外效能,如下圖所示。請注意,在某些情況下,CUDA 核心時脈愈高,有效記憶體頻寬就愈大。
實際應用程式效能
整體而言,大部分應用程式在 Tesla K40 的 GPU Boost 啟動時,執行速度會比 K20X 快 20 % 至 40%,如下圖所示。
立即在雲端試用 Tesla K40 GPU
K40 現已推出,您可立即向 NVIDIA 的系統合作夥伴購買,或是前往 Tesla 指定的合作廠商試用 K40 GPU。
請在下面發表您的評測結果
您已擁有 Tesla K40 M 或使用此產品的管道了嗎? 歡迎分享使用結果。