微軟Microsoft的研究人員創造了語言辨識的世界紀錄,該公司甫推出的最新科技,採用GPU加速深度學習技術,辨識對話中的字句,幾乎達到等同於人類的準確率。
研究小組的錯誤率達到5.9%,這是機器轉譯有史以來最低的數值,正確率幾乎與正常人轉述同段對話時差不多。這樣的成績,相較於微軟一個月前達到的紀錄,還進步了6%。
“我們已經達到與人類同等級的語言辨識技術。”微軟公司首席語言科學家,兼發表論文的共同作者Xuedong Huang表示,”這是一個歷史性的成就。”
閒聊是電腦辨識的一大挑戰
微軟的語言與對話研究部門的主管Geoffrey Zweig解釋,對話性的言語對語言辨識技術來說,是相當大的挑戰。
他表示,“語言辨識在人們隨意談天時會變得很困難,因為人們可能出現興奮的情緒,講錯話之後又自行修正,更可能一直變換話題,這些都是對話閒談時的特徵。”
研究人員認為,他們能夠在對話性的語言辨識技術上獲得突破,大多要歸因於深度學習,特別是系統化地使用了卷積(convolutional)與遞歸(recurrent)神經網路。在上回的研究計畫中,研究小組運用了所謂”長短期記憶的神經網路”(LSTM, Long Short-Term Memory),加諸於其語言模型。
LSTM網路的優點是,”記憶”資訊時間可以更長,因此相較於其它神經網路的語言模型,能夠對更多字句保持敏感度。
強而有力的GPU = 快速的進展
NVIDIA的 GPU,和微軟的Cognitive Toolkit 認知工具包(前稱為CNTK,為開源式的深度學習架構),是達到人類水準之對話語言辨識技術的重大功臣。微軟最近推出的Cognitive Toolkit認知工具包,是一個深度學習系統,用於加速語言與影像辨識技術,能夠在GPU上進行相關蒐尋。
Zweig表示,“如果不是藉由GPU的運算效能,我們無法完成這項工作。”
使用了NVIDIA的Tesla M40 GPU之後,研究人員大幅減少了訓練神經網路的時間,有些語言模型訓練時間從幾個月縮短為數周。Zweig說道,”這有很大的差別,因為我們進展的速度,與我們能夠執行的測試數量有正相關。”
語言辨識技術準備大鳴大放
現實生活中的語言辨識還有很大進步空間,譬如派對或是街上的場景,可能會有音樂、往來車輛、路人的談話,或者各式各樣的背景音。研究人員也試圖改善會議場合中的對話性語言辨識,此類情況的挑戰是,一支麥克風,可能會從許多個距離不等的喇叭上播放聲音。
Zweig認為研究的突破重點是,擁有了對的工具,能夠迅速將新一代的語言辨識技術,安裝於自家的Cortana個人數位助理、Xbox遊戲主機、以及其他產品中。
研究小組的長期目標,是把語言辨識技術提升到理解的層次,如此一來,機器設備將能夠回答問題,或是根據指令執行動作。
欲了解AI人工智慧的未來發展,請參閱NVIDIA CEO黃仁勳的報告:數位工業革命(The Intelligent Industrial Revolution.)。