1980年代汪德亮(DeLiang Wang)的母親喪失聽力之際,他正在唸大學,而如今汪媽媽就算用了助聽器,也深受失聰及無法與人交談之苦。跟一大家子人共進晚餐常使她心力交瘁。
汪德亮說91歲的汪媽媽「基本上已經聾了」,助聽器派不上什麼用場,她也很少戴,因此俄亥俄州立大學電腦科學工程教授汪德亮在 GPUs 與深度學習技術的協助下,開發出更優秀的助聽器。
超過 75% 需要使用助聽器的人卻不戴上,這些失聰者感到最無力的地方,便是助聽器在吵鬧的地方效果不彰。
雞尾酒會問題
聽力正常的人可以區別出人聲及屋外同時飛嘯而過的公車聲,汪德亮說助聽器卻會放大這兩者的音量,變成難以理解的吵雜聲。
這種吵雜聲稱為「雞尾酒會問題」,人類的聽覺系統能自然遮蔽掉擁擠房間裡的背景音樂和對話聲,而專注在某個人聲上。數十年來科學家想要挑戰打造出能模擬該能力的助聽器。
汪德亮覺得助聽器應該像矯正視力的眼鏡一般,讓所有人都輕鬆使用,正常發揮它的功效。
「我想要失聰者能跟正常人一樣聽見聲音。」他說。
爆炸聲如何給予一臂之力
汪德亮開發出一項能從喧鬧聲中區分出人聲的深度學習計畫,企圖改善助聽器的功能。一開始他跟他的研究團隊訓練一套神經網路,使用音量、音頻及其它聲音的特質,區分人聲和喧鬧聲之間的差異。
接著研究團隊得教導神經網路認識人聲及多種背景喧鬧聲,這包括了一組標準的 IEEE 口說句子、醫院餐廳裡的聲音和一萬部電影音效,像是從爆炸的炸彈和破碎的玻璃,到日常客廳或廚房裡的各種聲音。
研究團隊使用 CUDA 平行運算平台、NVIDIA TITAN X GPUs 及 cuDNN ,加上 TensorFlow 深度學習架構來加快訓練速度。
理解力提高9倍
在進行多次的訓練後,汪德亮創造出一項「數位過濾器」,能從背景喧鬧聲中區別出人聲,自動調整各自的音量。
研究團隊對十多名兩耳皆失聰者,以及十多名聽力正常者測試深度學習助聽器軟體, 測試者得掌握在含糊不清的聲音和餐廳裡的聲音這兩種背景聲裡,軟體理解人聲的情況。
失聰者對於在吵鬧的背景聲裡理解說話聲音的能力,有大幅的進步,某些人的理解能力從 10% 進步到 90%。
人工智慧技術打造出的助聽器,也讓士兵們在戰場上更能聽清楚彼此說的話
就算聽力正常者,也更能在吵雜的環境裡聽清楚人聲(如需更多資訊,請見汪德亮及其團隊提出的訓練與測試深度學習演算法報告)。
「這代表我們的計畫日後能幫助到的人數,遠超過原本所預期的。」汪德亮說。
戰場上更清楚聽見彼此的聲音
汪德亮說深度學習助聽器技術也能提高手機的語音辨識能力,讓工廠裡的員工或戰場上的士兵能在吵雜的環境裡聽清楚彼此的聲音。
眼下還有更多研究工作有待進行,不過汪德亮表示在更多環境裡推行、在更多人身上測試這項深度學習計畫時,總是掛念著他的母親。
「我的母親是我的靈感泉源。」他說。
如需更多深度學習相關資訊,請在 iTunes 或 Google Play Music 上收聽我們的 AI Podcast節目,或是閱讀我們的部落格,其中介紹了這項在機器學習範疇裡快速成長的分支領域。