手機具備創新視覺能力:GPU 技術如何輔助視障人士

作者 Crowd Favorite

智慧型手機就像是數位時代裡的萬用瑞士刀,集手機、相機、地圖、社交網路中心、遊戲機等功能於一身,現在還要再加入一項超棒的功能:視力。

Aipoly 就是這一類的智慧型手機 app,能以近乎立即的方式辨識超過家中四千種物體,像是工具、刀具和浴室用品,在螢幕上顯示文字辨識內容,並對使用者大聲說出物體名稱。

Aipoly 現在會的詞彙量,大概跟一個五歲小孩會的詞彙量差不多。這款 app 提供付費升級服務來擴增字彙量,會不斷加入新的生字和主題。

完整的影像辨識訓練是加快辨識速度的關鍵,也是它用於輔助視障人士的本質。

「這款 app 要給視障人士使用的話,準確度不能只有 70% 就算了。」來自舊金山的 Aipoly 共同創辦人 Alberto Rizzoli 說。

持續維持高度精準影像辨識能力,需要進行大規模的訓練,而 NVIDIA GPU 正是讓他們脫穎而出的利器。使用 GPU 跟使用 CPU 進行訓練所需的時間相比,「就像是烤蛋糕和威士忌熟成所需時間之間的差異」Rizzoli 說。

深度學習技術加持的影像辨識作業

它能讓人們具備前所未有的自由。— CloudSight, Inc. 共同創辦人 Brad Folkens

位於洛杉磯的 CloudSight 共同創辦人 Brad Folkens 也同意這個說法。他為視障人士與他人共同開發免費開放源碼的「TapTapSee」這款 app。使用者在手機螢幕上點兩下,從任何角度拍攝物品照片,app 就會大聲報出物體名稱。

Folkens 說 NVIDIA 的技術才是在背後支持該款 app 深度學習影像辨識功能的主力。

「我們可以利用手邊有的龐大影像庫,加上使用(NVIDIA DIGITS)DevBox,我們使用那些影像的樣本來訓練神經網路。」Folkens 說。

Folkens對於 CloudSight 日前購買的 NVIDIA DGX-1 超級電腦特別著迷不已。

「我們能使用 DGX-1 處理海量影像和訓練量,這是過去我們做不到的。現在我們能處理更多批次的影像,在合理的時間量裡完成訓練。」他說。

Rizzoli 跟 Folkens 從這兩款 app 對於使用者所帶來的效果身上,發掘出真正的熱情。

「某個使用者告訴我們,他可以在完全沒有輔助的情況,第一次去雜貨店買東西。」Folkens 說。

「身邊有個聲音來幫助辨識物體,對於這些視障人士來說是個特殊體驗。」Rizzoli 說。

如需更多資訊,請見 Aipoly 與 TapTapSee 的網站。可從 Apple 及 Google 商店免費下載這兩款 app。