機器學習在 SC14 邁入更快的發展速度

作者 Andy Walsh

上週當我抵達紐奧良,準備參加 SC14 超級電腦大會時,手機上的 Google Now 應用程式顯示出當地天氣,而我在計程車上透過語音指令搜尋當地的美味餐廳。

在前往會場的路上,想到這些是在某些全球最大的超級電腦上所運行出的結果,不禁覺得這一切恰如其分。而在會場裡,我們攤位的迷你講堂邀請世界級的超級電腦專家舉辦三天演講活動,以及在天氣和氣候模型、影像物體辨識及藥物開發方面的應用情況。

少部分主題才能引發熱切關注,像是用在大數據上的機器學習。我們攤位上近五分之一的演講主題均著重於電腦如何訓練自己去辨識物體、影像、信號和數據模式,而這個領域蘊藏龐大潛力 – 每家大型網路服務公司都僱用大批頂尖研究人員,在未來數年定有一番作為。


搜尋巨擘百度的資深研究員 Bryan Catanzaro,在 SC14 的展位演說吸引眾多人潮

「我堅信在未來數十年間,會有愈來愈多人將機器學習用在「x」上,並且創造出巨大的經濟價值。」中國搜尋引擎龍頭「百度」的資深研究員 Bryan Catanzaro,在他半小時聽眾爆滿的演講活動裡如此表示。

機器學習得快速處理大量數據,超級電腦運算(尤指 GPU的加速的超級電腦運算)成為機器學習的重點。

這些數據很容易就變成艾位元組(exabyte)級的龐大資料體,相當於五萬年份的 DVD 畫質影片量,就像是本次演講者之一的卡內基美隆大學研究員 Shoou-I Yu 所進行的工作。他的團隊花了四年在超快速搜尋影片的研究上,而最終可以用些許觸擊在 YouTube 上進行搜尋某人的特定影像。

這是一項涉及範圍廣泛的研究工作,Yu 說每分鐘有100 小時的影片上傳到 YouTube,不過他跟他的團隊已開發出能在八千小時的影片裡掃描特定物體的工具,以近乎即時的速度產生出結果。


研究人員開始使用 GPU 加速機器學習技術來區分珊瑚的眾多品種

這項應用讓機器學習超越數位領域之外

NVIDIA 機器學習專家 Jonathon Cohen 描述加州大學聖地亞哥分校研究人員開始使用 GPU 加速機器學習技術,在海床地圖上繪製出珊瑚品種的分布情況。

過去海洋生物學家只能仔細查看珊瑚礁的照片,分辨哪些是珊瑚、哪些又是沙石或海藻,然後再依外觀確認特定的珊瑚種類,才能完成如此複雜的工作。科學家以人工進行作業時,只能在照片裡標示出 1% 或 2% 的珊瑚礁。而現在電腦可以辨示出六成的珊瑚礁,只比科學家人工辨識的準確度少 5%,而 UCSD 的科學家正努力將準確度提升到九成。

本週在 NVIDIA 的攤位上提出的另一個實際例子,就是訓練電腦判斷組織採樣裡染色體有絲分裂(mitosis)的比例,以提高乳癌檢測的正確度。


GPU 被用來訓練電腦判斷組織採樣裡染色體有絲分裂(mitosis)的比例,以偵測乳癌

瑞士人工智慧實驗室 IDSIA 介紹團隊如何運用深度神經網絡進行機器學習(已獲六項國際大獎),在多種高難度的醫療影像評估作業上較人工作業能更快獲得更好的結果。

而來自微軟實驗室等其它單位在此領域的其它專家,也分享了他們運用機器學習的經驗。雖然主題各有不同,各位講者均同意機器學習現在仍為起步階段,明年11月在奧斯汀舉辦的 SC 大會上,定會看到更蓬勃的發展。