Google 如何運用 GPU 為語音、視訊、影像辨識帶來革命性的變化

作者 Brian Caulfield

就是那樣,玩家們,各位被淘汰了。

Google 已採用深度學習這項新技術來打造精通50款經典 Atari 遊戲的機器,將以前所未見的方式來玩《太空侵略者》(Space Invaders)。

聊聊原本應該怎麼玩遊戲。

當然沒有人會為了 GeForce GTX 980 而來。

不過 Google 將藉由遊戲背後採用的 GPU 技術,來執行極少數人認為可能發生的事情,而 Google 資深研究員 Jeff Dean 週三在 GPU 科技大會主題演講活動上介紹了這件事。


深度學習技術將使得電腦能執行幾年前極少數人認為會做到的事情。

Dean 是Google 核心工程師團隊的一員,負責開發新一代的技術,重新定義支撐網路發展的基礎架構。

Dean 跟他的同事將進入新的領域,也就是語音、視覺、語言建模、使用者預測和翻譯,這些過去被認為只會出現在科幻作品裡的內容。Google 的研究人員甚至讓機器精通像是《打磚塊》(Breakout)這些經典的電腦遊戲。

打造數位「大腦」

他們的工作以打造猶如人腦一般的神經網路為基礎,但只是粗略上相像罷了。目前數位大腦與人腦間的相似程度,大概就跟受鳥類翅膀啟發而創造出的飛機機翼差不多。

「我們並未嘗試去模擬大腦極深層化學遞質的方面,而是採用非常抽象的方式。」 Dean 說。

這些新的數位大腦跟生物腦一般,均得靠精密的演算法從頭教機器去執行複雜的工作,就像是對孩童展示多種樣本,以學習辨識不同種類的球一樣。

這或許聽起來很簡單,不過訓練電腦去學習如何執行這些工作,得花上不少時間。Dean 說:「我們在意的事情之一,就是減少人因工程的作業。我們喜好能自行建立更高抽象程度的深度學習演算法。」


Google 將使用演算法去執行人類程式設計師會花很多時間進行的工作。

在訓練好這些模型後,就能實際應用它們。像是從2012年起,Google 的 Android 系統智慧型手機軟體就使用以深度學習為基礎的預測語音辨識功能,系統依靠安裝在 Android Jellybean 與 Google 強大伺服器上的軟體。Dean 說 Google 現正將深度學習技術用於五十餘項生產應用程式上。

Google 的立場正適合推動深度學習技術,其搜尋業務能取得海量文字和影像資料,而極為分散的運算基礎架構則能快速消化這些資料。

如今在基礎架構加入 GPU,就能訓練神經網路快速處理大量工作。而 GPU 裡能一次處理海量工作的平行運算能力,使得 Google 的工程師能快速訓練系統。

這使得 Google 能運用這些系統去做幾年前還做不到的事情,像是辨識住家地址、分類照片和語音轉文字。


數千人聆聽 Google 的 Jeff Dean 說明這個搜尋引擎龍頭公司如何使用 GPU 來加快深度學習的速度。

Dean 說:「這些超強大模型的功能之一,就是能將某種樣式的投入內容變成另一種,就像是將畫素變成文字。」

打電動

殺手級的演示內容當然就跟電動遊戲有關。Dean 說在倫敦有一組同事建立一套深度學習系統,讓它開始玩50項 Atari 的經典遊戲,並且告訴它要獲得最高分。

機器一開始還不是很上手,在玩了數百次後即展示出超人般的實力,消滅《太空侵略者》裡的外星人並且以專業手法通過《Enduro》賽車遊戲裡的弧形迴旋軌道。

Dean 在播放 Google 的深度學習系統於拳擊遊戲裡擊倒一名很衰的對手的影片後,說:「我想該叫裁判來了。」