NVIDIA 人工智慧實驗室如何推動電腦視覺的未來發展

作者 Crowd Favorite

運動賽事策略、自動駕駛車及腦瘤診斷間有著什麼相似性?

這些都是全球頂尖大學在 NVIDIA 人工智慧實驗室裡,於人工智慧領域提出的突破性發展項目。未來幾日這些學校將在電腦視覺領域年度盛會 IEEE 電腦視覺與圖型辨識(CVPR)大會裡,向世人一一呈現重大研究成果。

史丹佛大學提出擬定運動策略更好的辦法;牛津大學研究團隊與 NEC 美國實驗室合作,解決自動駕駛車領域其中一項棘手問題;台灣大學也對診斷腦瘤提出辦法。

我們的 NVAIL 計畫輔導學生、提供自家研究員和工程師的協助,還獲得 DGX-1 人工智慧超級電腦業界最先進的 GPU 運算能力,讓這些人工智慧領域的先驅者不斷率領著時代浪潮向前邁進。當前全球有20所大學加入 NVAIL 計畫。

請繼續深入閱讀,以取得研究相關資訊。

治療腦瘤

台大資工系教授徐宏民認為在診斷腦癌方面,應有更好的辦法。

徐宏民說醫師不能只看惡性組織切片便做出診斷,得明白腫瘤四周的液體會在哪裡引發腦腫脹、得找出癌細胞是否已對任何組織造成不可逆的結果,還得掌握他們發現的一切,各種相關的尺寸、形狀和位置。這些資訊加總起來,才能協助他們為患者找出最佳的治療辦法。


台灣大學團隊開發出一個非常有效率的方法來分割核磁共振成像,以便區分腫瘤及其週遭的組織組態。精選圖片:MRI 腦部圖片分割。提供者:台灣大學。

光靠核磁共振成像(MRI)無法解決如此複雜又棘手的問題。徐宏民表示醫師必須藉由四種方式來處理 MRI 影像和檢視各種數據,方能精確偵測各種組織。

徐宏民及其研究團隊使用 NVIDIA DGX-1 來訓練一套深度神經網路,一次分析這四種影像;他們也使用 DGX-1 來部署自己的深度學習模型,進行推論作業。

徐宏民並非將深度學習用於檢視腦組織影像的第一人,但據信他是將各種影像納入單一演算法裡的第一人。7月23日徐宏民及其他研究員將出席 CVPR 報告其研究成果。

提升自動駕駛車輛的安全性

複雜多元的行車環境使得自動駕駛技術推廣不易。車輛在繁忙的十字路口必須解讀紅綠燈和車道等靜態元素,且對行人、自行車騎士及其它車輛等動態物體作出回應。

由 NEC 美國實驗室與牛津大學領軍的一支研究團隊,旨於藉由訓練車輛預測複雜的行車環境,以提升行車安全。

研究團隊運用深度學習發展出一套框架來預測靜態及動態元素的互動情況。這項框架跟許多現有方案的不同之處,在於不只是預測車輛或行人等物體在各點間的移動情況。

而是這套框架假設動態物體會四處亂走,對於最有可能發生的情況做出一連串的假說。它評估場景裡的脈絡環境(可能是繁忙的十字路口或人行道),以及相鄰物體的互動情況。

舉例來說,車輛會預想自行車騎士的多種前進路線,或是假設在路旁玩耍的孩童,他們的球可能會滾到路上或者孩童會因追球而衝向道路。

在建立多種假說後,此框架會對可能發生的情況做出策略性的預測內容。跟實際情況相比,證實這些預測相當準確。



學習曲線:該框架多次重複進行深度學習作業,預測內容(紅色)十分接近實際情況(藍色)。圖片提供:DESIRE 研究團隊。

牛津大學博士生 Namhoon Lee 指出:「這套框架料想多種未來的結果,而非限制事件發生的可能性,且對發生率最高的預測內容進行評分,能以較其它系統更安全且精準的方式去預測未來的互動情況。」

路上什麼事情都有可能發生,這套具備靈活度和精準度的框架或許能異軍突起,殺出重圍。

7月23日 Lee 將出席 CVPR 報告 這項研究成果。


史丹佛大學提出的人工智慧技術會辨識球員位置、正在進行的動作及解讀球隊行為。圖片提供:史丹佛大學與洛桑聯邦理工學院。

人工智慧如何解讀運動隊伍的行為

運動隊伍始終尋找著競爭優勢,難怪某些隊伍會轉而尋求人工智慧的協助,以求提高運動員的表現擬定作戰策略

獲勝的代價不只是要提升個別運動員的表現,不管是在田徑場或球場上,團隊合作才是其中關鍵。史丹佛大學教授 Silvio Savarese 及其團隊運用深度學習來分析賽事影片,企圖解決這個問題。

「只要場上有超過一個人,就不是孤軍奮戰—而是會有互動。」Savarese 說。

史丹佛大學研究科學家 Alexandre Alahi 表示該團隊的研究重點為排球,不過也能用在其它體育活動,甚至是機器人和自動駕駛車上。在瞭解團體動力學的運作方式後,能打造出舉止更像人類的機器人。Alahi 說這項技術也能用在自動駕駛車上,以掌握行人的行為,像是在穿越馬路之際還在分心用手機。

洛桑聯邦理工學院博士生 Timur Bagautdinov 說他們目前致力於理解社會互動情況,以偵測在哪些場景裡會出現特定人士、長時間追蹤該員並判斷該員的動作。他們得對每個運動員重複這些動作,最後研究員將這些拼湊起來,試圖找出其中的道理。

該研究團隊業已發展出一套框架,只消通過神經網路一次,便具備跟其它方法相同的能力。7月23日他們在 CVPR 所報告的社會場景理解內容裡,更深入討論相關技術資訊。