影像辨識系統的發展日漸精密,然而其複雜程度仍遠不及我們頭蓋骨底下大腦的運作效率。
我們的 Jetson TX1 嵌入式運算模組日前在列為 IEEE 重啟計算計劃(Rebooting Computing initiative)之一、於德州奧斯汀市舉行的低功耗影像辨識競賽(Low Power Image Recognition Challenge)活動的兩個競賽組裡皆獲佳績,企圖拉近電腦與人腦之間的差距。
我們投入不少資源在 Jetson 的 GPU 運算架構功耗效率上。在遊戲和專業設計方面,這意謂著在功耗分配有限的情況下可達到浮動幀率的目標;然而在電腦視覺方面,每瓦特效能使得無人機或機器人等自主操作的機械,可達到快速控制迴圈和近乎即時的回應能力。
LPIRC 2016 冠軍隊伍及主辦方。
NVIDIA 的 David Kirk 與陸永祥在普渡大學求學時,認為在功率分配的情況進行影像辨識,是一件值得挑戰的事,而展開了低功耗影像辨識競賽。陸永祥說頭兩年還是牛刀小試,只有一小群研究人員在進行。他打算日後擴大競賽規模,包括提供更大的獎項。
打造智慧無人機、頭戴式顯示器和能辨識物體的手機等如此精密複雜的電腦視覺應用項目,必須考慮到功耗效率的因素。人類大腦辨識物體(還有進行其它更多作業)要消耗掉20瓦特的功率。相較之下,超級電腦、資料中心和工作站上所運行表現最佳的分類程式,得用掉數千瓦特。
Jetson 帶來最高的正確率、最低的功耗
競賽當天,參賽隊伍帶來他們的硬體,並使用 Python 參考腳本登入伺服器;接著伺服器提供兩萬個影像給各系統在十分鐘內進行辨識,而主辦方將各隊的硬體連接至一具功率計。
各隊的目標是以最高的正確率、使用最低的功耗來分類影像。伺服器將分類裝置的正確率除以裝置的平均耗電量,以計算最後的分數。
LPIRC 2016 參賽隊伍與主辦方。
今年的冠軍隊伍使用運行最新版本 cuDNN 4.0 的 Jetson TX1,該隊為第一組執行 Bing+ Fast-RCNN、為第三組 在 Caffe 內執行 Faster-RCNN。
冠軍隊伍計劃主持人暨顧問的王穎說:「TX1 擁有我們對於行動裝置要求的一切特點:高產出值、低功耗,還能自由選擇精準模式。目前有許多以卷積神經網路(CNN)為基礎的辨識架構,像是 fast-rcnn、yolo、ssd 等,都讓我們能充份選擇,挑出最適合用於此次競賽和 TX1 硬體的架構。」
致勝策略:讓 Jetson 的 CPU 和 GPU 忙於處理大量資料
中國科學院的王穎教授表示致勝之道是平衡 CPU 跟 GPU 的工作量,隨時保持在全力運算的情況下。該隊使用 NVIDIA Tesla K40 GPU 加速器進行「設計控間搜索」,以判斷在桌上型 GPU 和 Jetson TX1 嵌入式系統上要使用的最佳模型。
經過多次反覆演練,他們發現模型刪除和奇異值分解可縮減其 CNN 模型的規模,他們也嘗試使用 cuFFT 及 cuSparse 來優化管線,但找不到此類方法來提高速度。
這是非常聰明的作法,不過要是我們想打造比媲美人腦效率的影像辨識系統,研究團隊還得多動動腦,此舉也使得日後更值得關注這項競賽。