微軟採用 GPU 打造破紀錄的影像辨識系統

微軟的研究人員最新運用 GPU，在知名影像辨識系統測試標竿「ImageNet」上寫下新猷。

相較於去年的結果，微軟系統的 top-5 錯誤率減半，正確在1000個預定類別裡對影像進行分類，創下高於 96% 的正確率。這套系統的神經網路數量達到152層，較目前最先進的系統深度還要再增加近五倍。

由於運用 GPU 來打造強大的神經網路，帶動了人工智慧復興時代，進而寫下這項突破性的亮眼成績。直到最近，要求一部電腦進行辨識圖片裡的橋樑這般簡單的作業，都會使得最先進的系統當機卡住。

更為深入

用不了多久，新的神經網路演算法、取得海量數據及強大的 GPU 就會合為一體，創造出稱為「深度學習」的革命。研究人員如今能打造出正確辨識照片（甚至影片）的程度高於人類的系統。

在 GPU 的助力下，深度學習的訓練過程變快，亦減少所需的伺服器數量，讓使用者能快速創造和優化新的訓練模型，最新創造出嶄新極為準確的深度學習應用方式。

創紀錄的結果

來自產官學界的研究人員，如今競相打造在多項廣泛採用的測試基準創下佳績的系統。

微軟寫下最新一項紀錄。位於北京研究中心的人員創造出破紀錄的152層神經網路，在「本地化」和「偵測」這兩項重要的 ImageNet 測試基準上創下最高分數。

在另一項 Microsoft Common Objects in Context（又稱為 MS COCO）的重要測試基準裡，微軟團隊在影像偵測和區隔項目方面掄元（從微軟展開，現由一組獨立學術單位來監督 MS COCO）。

微軟研究院也在實驗透過日前開放源碼的 CNTK 深度學習架構，提高 ImageNet 深度學習的結果。CNTK 整合 Azure GPU Lab，將微軟內部的語音辨識作業較舊有系統的表現提升10倍。

比人類的表現更優異

影像辨識是採用GPU 技術進行之深度學習最為顯著的應用項目之一。多年來研究人員不停追求著超越人類能力，正確辨識影像的聖杯。

今年稍早微軟研究院宣布影像辨識系統已超越人類辨識的正確度時，儼然已獲得此項殊榮。

不過影像辨識只是眾多機器學習應用項目之一，GPU 同樣也用於語音辨識作業上，微軟將其當成 Skype 翻譯工具的即時翻譯基礎。