準確掌握眼動蹤跡:深度學習技術怎麼讓你的智慧型手機追蹤你的視線

作者 Tony Kontzer

從診斷某些精神障礙疾病,到以最佳方式擺放教科書裡的圖片位置,在心理、醫療、廣告、行銷等眾多領域裡皆用上眼動追蹤技術。

科學家和研究人員可從理解人們目光的焦點及箇中原因,發掘出不少資訊。只是想要簡單普及眼動追蹤技術卻非易事,深度學習技術與 NVIDIA GPU 則將改寫那個局面。

利用普及的行動裝置

研究人員雖知眼動技術潛力無限,對於不易追蹤人們眼球動作一事總是掛念在心。就讀於麻省理工學院電子工程與計算機科學系、計算機科學與人工智慧實驗室的研究生 Aditya Khosla 說:「我們居然沒有眼動追蹤裝置,這可把我嚇壞了。」

Khosla 與一支由來自喬治亞大學與德國薩爾布魯根市馬克斯.普朗克電腦科學研究所的六名研究員組成的團隊,打算達成一個簡單的目標,那就是打造一套在任何有相機鏡頭的手機上都可運作的眼動追蹤軟體。

強大的行動技術加上能接觸到大量使用者,對這個研究團隊來說是一項極大的誘因。

在 Google 任職的軟體工程師,展開這項計劃時剛取得喬治亞大學計算機科學研究生學位的 Kyle Krafka 說:「要是得使用實驗室裡龐大又笨重的傢伙來進行眼動追蹤研究,就只能對一小群人進行。」

GPU 在這項研究工作裡扮演著重要的角色,他們使用 NVIDIA GeForce GTX TITAN X 搭配 Caffe 深度學習架構,對稱為「iTracker」的神經網路進行訓練和推論作業。

Krafka 說NVIDIA 的 GPU 獎助計劃提供TITAN X 給這項計劃,讓他跟 Khosla 能使用平行運算技術來跑數百個模型,以前使用 CPU 的話這是做不到的事。

「它讓我們能在短時間內完成實驗、試行新想法,找出哪些可行、哪些又是不可行。」Krafka 說。

大量資料

研究團隊採用人工智慧群眾外包市集「Amazon Mechanical Turk」這種新的方法,以取得訓練 iTracker 所需的大量資料。他們通過這種方式拿到較傳統實驗室方法更龐大的資料組。

「找到這種讓他人輕鬆參與的辦法,有助於我們擴大資料組,也讓我們有更多發現。」Khosla 說。研究團隊通過 Amazon Mechanical Turk 累積近 1,500 名參與者的眼動追蹤資料組,這可是過去研究活動資料量的三十倍。


簡介這支研究團隊的眼動追蹤卷積神經網路「iTracker」。

接著使用那項具突破性的資料組來訓練 iTracker。在 TITAN X 的輔助下,訓練結果展現出能即時在行動裝置上運行 iTracker,準確度也較過去的追蹤方法提高不少。

研究團隊還在開發 app,不過 Khosla 說他們還沒決定是否要商業化這項技術,他還說他們打算要提供源碼給開發者社群,看看會有什麼結果。

如需更多資訊,請至該計劃網站