在紐約使用 GPU 簡化了語音辨識的工作

作者 Jamie Beckett

從一開始的不順遂到今天,語音辨識的發展經歷了漫長的過程,而如今這項技術用以與手機、汽車和電腦進行互動。

不過拜卡內基梅隆大學與 Google Brain 的研究團隊所賜,速度更快、更精準的語音辨識技術即將現身。

週二在 GPU 科技大會上,卡內基梅隆大學博士班學生 William Chan對聽眾們表示研究團隊對語音辨識採取新的作法。

「我們捨棄傳統的語音辨識技術,用比較簡單的模型來取代。」Chan 說。

Deep Learning+ 深度學習加

研究報告領導作者的 Chan 說,多數語音辨識程式需要複雜多層的流程來將語音轉成文字,像是它必須有發音字典(還有開發字典的專業人員),以訂定每個字裡的每個聲音。

多數語音辨識應用程式雖使用深度學習技術訓練神經網路來理解語言,CMU-Google 則是更進一步,捨棄開發字典的專家。

「我們的模型完全就是以資料來驅動,直接從聲音(語音)來學習。」Chan 說。模型從人類建立的抄本學習與聲音伴隨的文字,一旦使用足夠的抄寫文本來進行訓練,就能處理聲音和自行轉成文字。

準確率等於最好

報告指出在測試活動裡,CMU-Google 工具的表現勝過或相當於目前頂尖語音辨識系統的正確率。

Chan 說 CMU-Google 的工具無需投入大量資料元素,適合行動裝置使用。

Chan 說:「我們的目標是直接將聲音變成英文字元,一個簡單又直接的模型。」

報告的其他作者有來自 Google Brain 的 Navdeep Jaitly、Quoc Le 與 Oriol Vinyals。Google Brain 是許多需要 GPU 提供運算能力的深度學習研究項目之一。