解放手指:將 VR 最困難的挑戰交給 GPUs

作者 Tony Kontzer

在實體環境裡,雙手就是帶領我們認識這個世界的工具,我們用手來感覺、來操作、來探索,還用雙手來吃飯喝水、穿衣打扮、賺錢謀生,以及跟他人建立關係。

而要是能在虛擬世界裡用雙手來處理事情,那就太好了。

普渡大學的一支研究團隊希望通過在虛擬環境裡詮釋手部動作、採用深度學習技術的 DeepHand 系統來改變那件事。

他們結合深度感應攝影機和在 GPU 上訓練過的卷積神經網路,翻譯250萬種手部姿勢和輪廓結構。這項研究成果為在虛擬環境裡能夠利用靈巧的手部動作,同時跟 3D 立體虛擬物體進行互動的夢想邁進了一大步。

自然的操作介面

DeepHand 滿足了普渡大學機械工程系 Donald W. Feddersen 教授 Karthik Ramani 長久以來的夢想。

Ramani 說:「我們在實體環境裡是如此自然使用雙手去做這麼多事情,所以我一直想要設計開發出將人類雙手當成使用者介面裡一項重要元素的產品。運用手勢就能聰明直覺地跟 3D 立體物件進行互動。」

Ramani 表示出現更廉價的深度感應攝影機,加大了辨識手勢運作的機會,也提高了在人機介面裡對更自然地使用雙手的期望。

GPU 在這裡的用處是加快了訓練為 DeepHand 所打造出之卷積神經網路的速度。Ramani 跟 Ayan Sinha、Chiho Choi 這兩名研究生研究員使用 NVIDIA GPU 來訓練神經網路,Ramani 說訓練速度比起使用 CPU 要快上兩到三倍。

解決問題

儘管這個團隊出現顯著進展,眼前仍有許多有待克服的問題。部分手指和手掌常會擋住攝影機的視野,偶爾無法解釋手部動作。手的多個關節和大量可能發生的動作,幾乎就是沒完沒了。還有兩隻手有某些部分看起來極為相似,系統不時會難以辨識是在看著哪個部分。

Ramani 說:「憑眼力找出手的正確位置及所有關節的角度,不像將線串過很多個點那樣簡單,那個問題難多了。」

Ramani 很幸運,獲得美國國家科學基金會通過旗下的新創公司 ZeroUI 所提供的資金,而這家新創公司的研發重點便是將手當成使用者介面(該公司用來創造手部控制機器人玩具的 Ziro 模組化建構套件,已獲得部分人士的注意)。

重大計劃

Ramani 的團隊打算最終藉由 ZeroUI 的幫助來產量 DeepHand,只不過他說在開始開發擴增實境(AR)和虛擬實境(VR)應用項目前,還有待克服會干擾解讀手部動作的「噪音」一事。

他說:「得為實體環境 AR 及 VR 用途打造堅固實用的手部模型。」他跟他的團隊計劃只先繼續推動那件事。

今夏初在拉斯維加斯舉行的 2016年 IEEE 電腦視覺與圖形辨識大會上,該團隊發表了這項研究報告