NVIDIA 提出多項全新深度學習軟體工具供開發人員使用

作者 Will Ramey

NVIDIA 今日宣布為軟體開發界提供多項效能更優秀、處理速度更快的工具,協助開發者解決深度學習日漸複雜的情況,這包括 NVIDIA SDK 一項重大更新內容,內有開發人員開發人工智慧應用程式會用到的軟體函式庫和工具。

我們隨著每次推出新一代的 GPU 框架,都不斷改善 NVIDIA SDK。秉持這項傳統,這些軟體也能用於最新的 Volta 框架 GPU。

我們按照開發人員的需求發展各項工具、函式庫和增強項目,並加入 CUDA 編程模型,協助開發人員加快建造下一代人工智慧和高效能運算(HPC)應用程式的速度。

10-dl-frameworks-dev-growth人工智慧技術的進展,使得產業對 GPU 運算的興趣出現呈現爆炸性的成長。

最新的 SDK 更新項目內有用於 GPU 加速應用程式的新功能和效能優化內容:

  • 新的 CUDA 9 支援 Volta GPU,加快了 HPC 與深度學習應用程式的執行速度、將函式庫的運算效能提升5倍,用於管理執行緒的新編程模型,還有除錯及性能分析工具的更新項目。
  • 新的 TensorRT 3 將深度學習的推論速度提升 3.5 倍,人工智慧網路服務及嵌入式邊界設備等終端使用者應用程式的開發者可因此而受惠。內建支援優化 Caffe 與 TensorFlow 模型,開發人員就能更快將完成訓練的神經網路投入正式生產環境。
  • 工程師和資料科學家可使用 Volta 對 Caffe2、Microsoft Cognitive Toolkit、MXNet、PyTorch 及 TensorFlow 等框架的優化內容,將訓練深度學習神經網路的速度提升 2.5 倍。

以下詳細介紹各軟體更新內容,以及帶給開發人員和終端使用者的優點:

 

CUDA

 

CUDA 是用於建造 GPU 加速應用程式最快速的軟體開發平台。每次推出新一代的 GPU 都會一併提供 CUDA 重大更新內容,而在第9版裡包括支援 Volta GPU、函式庫重大更新內容、新的編程模型,以及除錯和性能分析工具更新內容。

深入瞭解 CUDA 9

NVIDIA 深度學習軟體開發套件

 

開發人員使用針對 Volta 優化的最新版深度學習軟體開發套件(Deep Learning SDK),就能取得各項函式庫和工具,確保從雲端或資料中心到桌面、嵌入式邊界設備的 NVIDIA 各平台上,無縫開發和部署深度神經網路。相較於 Pascal GPUs,在 Volta GPUs 上使用最新更新項目的深度學習框架,訓練 CNNs 的速度快上 2.5 倍,訓練 RNNs 的速度快上3倍,而推論速度快上 3.5 倍。

我們還與多個協力廠商及社群合作,更新 Caffe2、Microsoft Cognitive Toolkit、MXNet、PyTorch 及 TensorFlow 深度學習框架,以利用最新 Deep Learning SDK 和 Volta 的優點。

這項更新將為以下對象提升效能和帶來新功能:

cuDNN

 

NVIDIA cuDNN 提供各大深度學習框架使用的高效能深度學習建構模組。

cuDNN 7 在 Volta 優化的 Caffe2 深度學習框架上訓練 Microsoft ResNet50 神經網路,速度快上 2.5 倍。Apache MXNet 在訓練 OpenNMT 語言翻譯 LSTM RNNs 時,速度快上3倍。

NVIDIA 開發者計畫成員七月時可免費下載 cuDNN 7。詳情請見 cuDNN 網站

 

NCCL

 

深度學習框架依靠 NCCL 提供深度學習工作量多 GPU 縮放功能。NCCL 2 推出在多達八個GPU 加速伺服器上的深度學習訓練多節點縮放功能。訓練神經網路所需的時間從數日減少到數小時,開發人員就能反覆進行這個過程,更快開發出產品。

HPC 應用程式和深度學習框架的開發人員可在七月時拿到 NCCL 2。NVIDIA 開發者計畫成員可免費下載。詳情請見 NCCL 網站

TensorRT

 

即時提供人工智慧服務,對於深度學習推論產生出嚴苛的延遲時間要求。開發人員在擁有 NVIDIA TensorRT 3 之後,推論速度加快 3.5 倍 – 不到7毫秒的即時延遲性。

開發人員可優化在 TensorFlow 或 Caffe 深度學習框架裡訓練的模型,快速部署人工智慧服務到運行 Linux、Microsoft Windows、BlackBerry QNX 或 Android 作業系統的平台。

NVIDIA 開發者計畫成員七月可免費下載 TensorRT 3。詳情請見 TensorRT 網站.

NVIDIA DIGITS

 

DIGITS 開始支援 TensorFlow 深度學習框架。工程師和資料科學家可在 DIGITS 裡設計 TensorFlow 模型來提高生產力,並使用互動式工作流程即時管理資料集、訓練和監控模型準確性。此更新項目也在 DIGITS Model Store 裡提供三項全新預先訓練的模型,分別是用於影像分類的 Oxford VGG-16 和 Microsoft ResNet50,還有用於物體偵測的 NVIDIA DetectNet,以減少訓練時間和提高準確度。

七月將推出用於桌面和雲端的 DIGITS 更新內容、TensorFlow 和新的模型,NVIDIA 開發者計畫成員可免費下載。詳情請見 DIGITS 網站

深度學習框架

 

NVIDIA 深度學習軟體開發套件可加快廣泛使用的 Caffe、Microsoft Cognitive Toolkit、TensorFlow、Theano 和 Torch 等深度學習框架,還有多項深度學習應用程式的執行速度。NVIDIA 與 Amazon、Facebook、Google、Microsoft、牛津大學等單位的頂尖深度學習框架維護員密切合作,以整合最新的 NVIDIA 深度學習軟體開發套件函式庫,立即發揮 Volta 的運算實力。

Caffe2

 

Caffe2 在其官方部落格上宣布與 NVIDIA 合作開發的框架更新項目,讓 Volta 擁有16位元浮點(FP16)訓練能力。

「我們在 Caffe2 上與 NVIDIA 密切合作,發揮 NVIDIA 即將推出的下一代 Volta 框架 Tesla V100 功能特色。Caffe2 很興奮成為首批從頭開始設計的框架,加入 NVIDIA Deep Learning SDK 函式庫,即 NCCL 和 cuDNN,以充分發揮 Volta 框架的長處。」

MXNet

 

Amazon 宣布與 NVIDIA 合作,將高效能深度學習用在 AWS 上,並在公告裡提到雙方合作讓 Volta 支援 MXNet。

「AWS 的工程和研究團隊與 NVIDIA 合作,在 Apache MXNet 加入預先優化的神經機器翻譯系統(NMT)演算法,讓開發人員能在 Volta 框架平台以最快的速度進行訓練。」Amazon 人工智慧部門產品管理經理 Joseph Spisak 如此寫道。

TensorFlow

 

Google 在其開發者部落格上分享最新的DGX-1 TensorFlow 測試基準結果:

「我們要感謝 NVIDIA 分享 DGX-1 測試基準結果和技術方面的協助。我們引頸期盼 NVIDIA 即將推出的 Volta 框架,並且跟 NVIDIA 密切合作以優化 TensorFlow 的效能,並且擴大對 FP16 的支援程度。」

NVIDIA 與 Microsoft 密切合作優化 Microsoft Cognitive Toolkit;也跟 Facebook AI Research(FAIR)實驗室合作,在 Volta 上優化 PyTorch。

NVIDIA GPU 雲端深度學習堆疊

 

我們今天還宣布了針對深度學習優化的 NVIDIA GPU 雲端(NGC)GPU 加速雲端平台。

NGC 的使用對象為不想組裝和維護最新深度學習軟體和 GPU 的深度學習應用程式開發人員。我們使用最新深度學習框架、NVIDIA 深度學習軟體開發套件和 CUDA,提出在 PC、DGX 和雲端運行的 NGC 雲端深度學習堆疊(Cloud Deep Learning Stack)這項完整開發環境。完全由 NVIDIA 管理堆疊,開發人員和資料科學家可以從 PC 上的單一 GPU 開始動手,再逐步加入雲端裡的額外運算資源。

 

NVIDIA VRWorks 與 DesignWorks 更新項目

 

以下為部分其它 SDK 更新項目的更多資訊:

發表 DesignWorks GTC 2017

在 GTC 發表 VRWorks Audio 及 360 Video SDK