語言學家預料從全球化到文化同化等各種因素,將會造成全球約七千種語言裡有至少半數將在本世紀末消失殆盡。
記錄與振興瀕危語言,有部分難題來自於缺乏這些語言的文字和語音紀錄。北美地區六個原住民易洛魁聯盟(Iroquois Nations)之一的塞內卡(Seneca)語,只有約百名以此為第一語言的母語使用者和數百名第二語言學習者。
自動語音辨識(ASR)技術廣泛用於轉錄英語和普通話這類數百萬或數十億人使用的語言,不過對於塞內卡語這些使用者和相關資料量都極少的語言,自動語音辨識技術也是無用武之地。
紐約羅徹斯特理工學院的一支研究小組,以及他們在紐約州立大學水牛城分校的同仁利用深度學習技術來增進 ASR 的能力。他們的研究重點雖放在塞內卡語上,也希望保存全球各地的語言和人類共同文化歷史的重要部分。
「認識不同語言讓我們更深入瞭解人腦的運作方式。在記錄一種語言時,要保存的內容不只是要語言本身,還有人類普遍使用該語言的情況。」波士頓學院電腦科學系助理教授,也是羅徹斯特理工學院研究員的 Emily Prud’hommeaux 說。
Prud’hommeaux 和她的團隊開始研究塞內卡語一事並非巧合。她說,原住民易洛魁聯盟之一的塞內卡人有三個成員也參與了這項研究,在這類研究活動裡有部落直接參與是很罕見的事。
羅徹斯特理工學院格里薩諾電腦與資訊科學學院的博士生 Robbie Jimerson 是這項研究案的主持人,他是印地安塞內卡人聯盟的成員之一,熱衷於確保塞內卡語能延續下去。
「部落領導人致力於保護和推廣我們的語言。我一直在找能貢獻己力的機會。」Jimerson 說。
使用 GANs 建立更多語言樣本
這項計畫進行到現在已進入第三年,在累積語言資料方面遇到了瓶頸。Jimerson 表示塞內卡社區對於外流的內容十分警惕,造成缺乏大量口說錄音內容。他著手改變這一點。
他開始對會說塞內卡語的友人和耆老進行錄音,並且請求他們去對他們的朋友進行錄音。有人在公共場合操用塞內卡語時,他都會試著找出對方的身分。他請求部落裡的家庭將耆老講述代代相傳的故事口說內容進行錄音,也下載他能在網路上找到的任何公開影片或錄音內容。
研究團隊為塞內卡語微調了一個 ASR 模型,在生成對抗網路上運行這個模型,以便從數量有限的錄音內容裡建立更多樣本。這個模型將口語的波形檔案轉成一連串的字元,同時計算其中的或然率和進行校正。
得出的資料再投入深度學習模型,進而提高 ASR 模型的準確性。
該團隊的神經網路在兩個運算設置環境裡運行:一處是一間機器學習實驗室,在九架伺服器上運行多種 NVIDIA Tesla GPU,還有一處是大學裡的大型伺服器運算叢集,每架伺服器上運行十個 NVIDIA Tesla P4 GPU。各叢集運行著 TensorFlow 和 Caffe 等多個深度學習框架。
「電腦工程系的全體學生都能使用電腦工程運算叢集,他們必須『爭奪』這些資源。」羅徹斯特理工學院電腦工程系助理教授,同樣也參與此研究案的 Ray Ptucha 說。
Jimerson 運用這些珍稀的運算叢集資源,測試程式碼和檢查模型在本地運行著 NVIDIA TITAN X 之機器上的穩定性,而非運行可能會當機的模型對其他學生造成不便。
達到更高的精準性
到目前為止,該團隊已經努力將其 ASR 模型的文字錯誤率從 70% 降到 56%。Prud’hommeaux 表示目標是降到 25%,而這是多年前 ASR 系統處理英語的錯誤率水準。
研究團隊可以累積的口說和書面塞內卡語樣本愈多,錯誤率也就愈低(目前英語 ASR 模型的文字錯誤率已經低到 5%)。
他們的研究成果有望為保存各地語言盡一份心力。
Prud’hommeaux 表示該團隊已與一處檔案典藏機構簽定協議,這是該項目從國家科學基金會獲得資助的條件之一。產生出的語言檔案典藏資料庫將開放為一項資源,供其它致力於記錄瀕危語言的作為使用。
Prud’hommeaux 還表示團隊的研究成果能夠證明在資料量有限的情況下,深度學習仍能派上用場。
精選圖片:易洛魁聯盟旗幟,透過 Wikimedia Commons 取得。