對話二三事：微軟公司語言辨識技術創新紀錄

微軟Microsoft的研究人員創造了語言辨識的世界紀錄，該公司甫推出的最新科技，採用GPU加速深度學習技術，辨識對話中的字句，幾乎達到等同於人類的準確率。

研究小組的錯誤率達到5.9%，這是機器轉譯有史以來最低的數值，正確率幾乎與正常人轉述同段對話時差不多。這樣的成績，相較於微軟一個月前達到的紀錄，還進步了6%。

“我們已經達到與人類同等級的語言辨識技術。”微軟公司首席語言科學家，兼發表論文的共同作者Xuedong Huang表示，”這是一個歷史性的成就。”

閒聊是電腦辨識的一大挑戰

微軟的語言與對話研究部門的主管Geoffrey Zweig解釋，對話性的言語對語言辨識技術來說，是相當大的挑戰。

他表示，“語言辨識在人們隨意談天時會變得很困難，因為人們可能出現興奮的情緒，講錯話之後又自行修正，更可能一直變換話題，這些都是對話閒談時的特徵。”

研究人員認為，他們能夠在對話性的語言辨識技術上獲得突破，大多要歸因於深度學習，特別是系統化地使用了卷積(convolutional)與遞歸(recurrent)神經網路。在上回的研究計畫中，研究小組運用了所謂”長短期記憶的神經網路”(LSTM, Long Short-Term Memory)，加諸於其語言模型。

LSTM網路的優點是，”記憶”資訊時間可以更長，因此相較於其它神經網路的語言模型，能夠對更多字句保持敏感度。

強而有力的GPU = 快速的進展

NVIDIA的 GPU，和微軟的Cognitive Toolkit 認知工具包(前稱為CNTK，為開源式的深度學習架構)，是達到人類水準之對話語言辨識技術的重大功臣。微軟最近推出的Cognitive Toolkit認知工具包，是一個深度學習系統，用於加速語言與影像辨識技術，能夠在GPU上進行相關蒐尋。

Zweig表示，“如果不是藉由GPU的運算效能，我們無法完成這項工作。”

使用了NVIDIA的Tesla M40 GPU之後，研究人員大幅減少了訓練神經網路的時間，有些語言模型訓練時間從幾個月縮短為數周。Zweig說道，”這有很大的差別，因為我們進展的速度，與我們能夠執行的測試數量有正相關。”

語言辨識技術準備大鳴大放

現實生活中的語言辨識還有很大進步空間，譬如派對或是街上的場景，可能會有音樂、往來車輛、路人的談話，或者各式各樣的背景音。研究人員也試圖改善會議場合中的對話性語言辨識，此類情況的挑戰是，一支麥克風，可能會從許多個距離不等的喇叭上播放聲音。

Zweig認為研究的突破重點是，擁有了對的工具，能夠迅速將新一代的語言辨識技術，安裝於自家的Cortana個人數位助理、Xbox遊戲主機、以及其他產品中。

研究小組的長期目標，是把語言辨識技術提升到理解的層次，如此一來，機器設備將能夠回答問題，或是根據指令執行動作。

欲了解AI人工智慧的未來發展，請參閱NVIDIA CEO黃仁勳的報告：數位工業革命(The Intelligent Industrial Revolution.)。