人工智慧推動資料中心紛紛採用加速運算技術

作者 Crowd Favorite

Google 日前發表的 TPU 報告下了一個明確的結論:少了加速運算技術,人工智慧領域便無法進行橫向擴展。

當前各項經濟數據在全球各地的資料中心裡不斷運行著,而資料中心的面貌也出現戲劇性的變化。不久前資料中心裡還存放著網頁、廣告和視訊內容,如今資料中心裡的設備能夠辨識語音、偵測串流影片裡的影像,並且在我們需要資訊時,精準將我們與資訊串連起來。

一種稱為「深度學習」的人工智慧技術創造出愈來愈多這些功能。深度學習是一種從海量資料進行學習的演算法,它創造出的軟體能解決翻譯語言、診斷癌症和教導車輛如何自動駕駛等難題。人工智慧帶給業界前所未見的急速轉變。

深度學習領域的研究先驅 Geoffrey Hinton 日前在接受《The New Yorker》雜誌訪問時,提到「深度學習會解決任何過去有著龐大數據的分類問題,未來會出現數千種深度學習的應用方式。」

出人意表的實際結果

以 Google 為例,它在深度學習方面突破性的應用方式成功地引起全球對這個領域的重視:Google Now 即時資訊服務極為精確、AlphaGo擊敗全球圍棋高手一事也意義重大, Google 翻譯更能處理100種不同語言。

深度學習創造出的結果令人留下深刻印象。在摩爾定律演進速度變慢之際,研究顯示電腦需要準確處理海量資料。深度學習這種新的運算模型,需要發明新的運算架構。

NVIDIA 投注不少時間在這項人工智慧運算模型變動的架構上。2010年,Juergen Schmidhuber 教授的瑞士人工智慧實驗室研究員 Dan Ciresan,發現 NVIDIA 的 GPU 可用於訓練深度神經網路,它的速度是 CPU 的50倍。一年後,Schmidhuber 的實驗室使用 GPU 來開發首套純粹深度神經網路,在國際性手寫字跡辨識與電腦視覺的競賽活動裡獲得佳績。

2012年,當時還是多倫多大學研究生的 Alex Krizhevsky 使用兩個 GPU,在如今聞名全球的年度 ImageNet 大規模影像辨識競賽裡贏得冠軍(Schmidhuber 針對 GPU 深度學習對現代電腦視覺技術的影響力已編寫完整的紀錄)。

針對深度學習進行優化

全球各地的人工智慧研究人員發現 NVIDIA 為電腦圖形和超級電腦應用程式率先發展出的 GPU 加速運算模型,適合用於深度學習。3D 圖形、醫學影像、分子動力學、量子化學及氣候模擬等深度學習,是一種需要大量平行運算張量(tensor)或多維度向量的線性代數演算法。NVIDIA 在2009年發展出的 Kepler 架構 GPU,讓世人瞭解將 GPU 加速運算技術用於深度學習領域的可能性,卻從未對此特別進行優化調整作業。

我們得開發出新世代的 GPU 架構,先是 Maxwell 架構,接著是 Pascal 架構,而在 Pascal 架構裡還加入多項專為深度學習開發的先進架構技術。在 Kepler 架構 Tesla K80 問世後四年發表的 Pascal 架構 Tesla P40 推論加速器,其深度學習推論表現是 Tesla K80 的26倍,遠遠超越摩爾定律的數字。

此時 Google 為處理推論作業專門設計出稱為「TPU」(tensor processing unit)的晶片,並且在2015年開始部署使用。

上週 Google 團隊發表 TPU 優點的技術資訊,聲稱 TPU 在推論方面的效能是 K80 的13倍,他們卻未將 TPU 與最新一代的 Pascal 架構 P40 進行比較。

更新 Google 的比較資訊

我們以下方的量化圖來說明從 K80 到 P40 在性能方面的增長情況,並且顯示 TPU 如何與 NVIDIA 當前技術進行比較,以更新 Google 的比較資訊。

P40 在運算精度和處理量、晶載記憶體及記憶體頻寬間取得均衡的狀態,以達到出色的訓練和推論效能。在訓練方面,P40 具備10倍的頻寬及 12 teraflops 的32位元浮點運算效能;而在推論方面 P40 具備高處理能力8位元整數及高記憶體頻寬。

依 Jouppi 等人[Jou17]所著的《In-Datacenter Performance Analysis of a Tensor Processing Unit》與 NVIDIA 內部測試基準所取得的數據。K80 對 TPU 的效能率以取自[Jou17]的 CNN0 與 CNN1 加速器平均值為基礎,與半啟用狀態的 K80 比較其效能。K80 對 P40 的效能率以可公開取得、擁有相似效能特性的 CNN 模型 GoogLeNet 為基礎。

Google 與 NVIDIA 雖選擇不同的發展路徑,但在某些研究裡有諸多共同點,尤其是:

  • 人工智慧需要搭配加速運算技術。在摩爾定律的演進速度變慢之際,加速器滿足了深度學習在資料處理方面的龐大需求。
  • 張量處理是提供深度學習訓練與推論效能的核心。
  • 在建造現代資料中心時,企業必須考慮張量處理這項嶄新重大的工作量。
  • 加快張量處理的速度能大幅減少建造現代資料中心的成本。

科技界現正身處於稱為人工智慧革命的歷史轉型期,而從阿里巴巴、Amazon、百度、Facebook、Google、IBM、微軟、騰迅等企業所擁有的超大規模級資料中心,最能看出其影響力。這些企業需要在不必花大錢建造搭載 CPU 節點全新資料中心的情況下,加快人工智慧處理工作的速度。少了加速運算技術,人工智慧便無法進行橫向擴展。

GPU 加速運算技術創造出深度學習,且點燃了現代人工智慧的發展。敬邀各位參加5月8-11日於美國加州聖荷西市舉行的 NVIDIA GPU 科技大會。各位將可聆聽人工智慧領域的先驅人士介紹各項突破性的發現,還能得知 GPU 運算領域最新發展情況,以及它們如何接踵為各產業帶來革命性的發展。