微軟採用 GPU 打造破紀錄的影像辨識系統

作者 Jay White

微軟的研究人員最新運用 GPU,在知名影像辨識系統測試標竿「ImageNet」上寫下新猷。

相較於去年的結果,微軟系統的 top-5 錯誤率減半,正確在1000個預定類別裡對影像進行分類,創下高於 96% 的正確率。這套系統的神經網路數量達到152層,較目前最先進的系統深度還要再增加近五倍。

由於運用 GPU 來打造強大的神經網路,帶動了人工智慧復興時代,進而寫下這項突破性的亮眼成績。直到最近,要求一部電腦進行辨識圖片裡的橋樑這般簡單的作業,都會使得最先進的系統當機卡住。

更為深入

用不了多久,新的神經網路演算法、取得海量數據及強大的 GPU 就會合為一體,創造出稱為「深度學習」的革命。研究人員如今能打造出正確辨識照片(甚至影片)的程度高於人類的系統。

在 GPU 的助力下,深度學習的訓練過程變快,亦減少所需的伺服器數量,讓使用者能快速創造和優化新的訓練模型,最新創造出嶄新極為準確的深度學習應用方式。

創紀錄的結果

來自產官學界的研究人員,如今競相打造在多項廣泛採用的測試基準創下佳績的系統。

微軟寫下最新一項紀錄。位於北京研究中心的人員創造出破紀錄的152層神經網路,在「本地化」和「偵測」這兩項重要的 ImageNet 測試基準上創下最高分數。

在另一項 Microsoft Common Objects in Context(又稱為 MS COCO)的重要測試基準裡,微軟團隊在影像偵測和區隔項目方面掄元(從微軟展開,現由一組獨立學術單位來監督 MS COCO)。

微軟研究院也在實驗透過日前開放源碼的 CNTK 深度學習架構,提高 ImageNet 深度學習的結果。CNTK 整合 Azure GPU Lab,將微軟內部的語音辨識作業較舊有系統的表現提升10倍。

比人類的表現更優異

影像辨識是採用GPU 技術進行之深度學習最為顯著的應用項目之一。多年來研究人員不停追求著超越人類能力,正確辨識影像的聖杯。

今年稍早微軟研究院宣布影像辨識系統已超越人類辨識的正確度時,儼然已獲得此項殊榮。

不過影像辨識只是眾多機器學習應用項目之一,GPU 同樣也用於語音辨識作業上,微軟將其當成 Skype 翻譯工具的即時翻譯基礎。