中華電信借助 NVIDIA GPU 加速深度學習,讓中英雙語語音合成能更自然互動

作者 NVIDIA

如果曾撥打「123」致電中華電信 24 小時客服專線,應該都有體驗過全台首創聲音互動人工智慧(AI)客服,其藉由擬真的語音系統提供自助式客服,或是協助轉接專人客服,以解決進一步的需求。而這套系統背後採用的便是 NVIDIA 超大規模模型推論解決方案 Triton 推論伺服器,搭配旗下 GPU 加速深度學習系統,讓中華電信能以更高的效率完成語音模型訓練,進而建構高自然度的擬真語音互動體驗。

更擬真的客服專線,原本需要長時間訓練建立

中華電信研究院前瞻科技研究所所長汪世昌表示:「目前中華電信自行研發的中英雙語語音合成技術,歷年來已應用於多個領域,除了用在 24 小時客服專線,更應用在 166、167 天氣預報、視障輔助等相關應用,以及中華電信旗下i寶貝智慧音箱、AI 語意雲、智慧廣播助理等服務,同時也用於健保署、消防署的語音服務系統。」

在還沒有導入 AI 技術時,中華電信就已著手投入擬真數位語音技術研究,從早期藉由語音拼接進行合成,以及後續透過語音參數方式進行合成,到現在已經可以利用深度學習等 AI 技術,透過足夠時間長度規模的聲音資料,以及相應的文字內容,訓練合成高度自然的語音模型,唯獨整個訓練流程仍須花費較長時間。

以目前深度神經網路 (Deep Neural Network;DNN) 技術推動的語音合成效果,已經可以實現逼近真人語調般的自然表現,但是藉由自我迴歸模型 (Autoregressive Model) 生成詮釋聲音語調特徵的梅爾頻譜 (Mel-Spectrogram),再透過人聲編碼器 (Vocoder) 合成語音內容的過程,往往需要處理大量資料數據,使得整體合成時間變得更長,因此與預期應用在實際服務上的流暢度表現將有所落差。

加上若要打造跨語言的語音系統,過去的作法是透過多種語音系統對應不同語言內容,但會導致不同語言內容以不同音色呈現,而造成使用體驗不一致,因此會透過同一人錄製多種語言的語音資料,藉此建立相同音調的語音系統。

不過,在此需求情況下,更代表需要花費更長時間進行訓練,才能順利建立出像是中華電信此次釋出的中英雙語語音合成模型,並順利應用在各類語音服務上。

圖一:模型訓練時間縮短,合成速度加快

借助NVIDIA技術大幅縮短訓練時間

汪世昌表示,將數位合成的語音系統用於客服,太重的機器合成語感會嚴重影響使用者的互動意願,尤其目前越來越多服務仰賴語音互動,自然的語感表現更容易吸引使用者互動。

不過,要打造自然語感的合成語音表現,自然需要龐大的資料量進行深度訓練,以過往訓練模式須花費更長時間完成,但是藉由導入NVIDIA超大規模模型推論解決方案 Triton 推論伺服器,並搭配 TensorRT 深度學習推論平台,以及透過 GPU 加速的 cuDNN 函式庫等資源,同時,藉由NVIDIA Elite合作夥伴豐康科技協助導入 NVIDIA 的硬體設備,包括 NVIDIA DGX-1 超級電腦RTX A6000 GPU 與多張 NVIDIA T4 Tensor 核心 GPU 等進行運算,即可讓原本需要花費多時才能完成的模型訓練,縮短至 1 天即可完成,更可在整個訓練過程中降低成本支出。

圖二:NVIDIA Triton 推論伺服器架構
圖三:語音合成 Triton 推論工作流程

如此一來,即便語音模型需要重新訓練,或是加入不同參數等,都能在更短的時間內完成,藉此讓合成語音系統能更符合實際應用需求、同時也更自然,甚至反應速度更快。

擬真語調只是初期應用,未來計畫創造可聊天互動的 AI 對話系統

不僅侷限在中、英兩種語言,汪世昌進一步說明目前還有台語與客語,未來也會因應市場需求加入更多語言,以及語意理解與上下文銜接,讓數位語音系統可以結合 AI 對話助理,藉此實現更廣泛的代理服務應用模式,例如從當前的電話客服系統,進一步衍生能夠依照致電者需求自然應答的語音互動模式,讓餐廳等商家可以在無須增加人手的情況下,即可透過語音系統接下更多訂單或處理更多訂位需求。

圖四:機器人客服情境

汪世昌認為,由 AI 對話助理提供大量資料彙整分析的知識問答服務,可將傳統客服人力應用在需要更準確解決問題的情況,例如直接由 AI 對話助理協助回答哪些方案適合消費者當前的使用需求,而在此基礎下可以直接提供精準的漫遊方案選購建議,而其他人員則可聚焦在技術問題處理,或是較複雜的客訴情況。

為了建立更有智慧的 AI 對話助理,需要更龐大的資料與知識問答進行訓練,並且透過更強的算力縮短整體訓練時間,因此未來中華電信也會持續與 NVIDIA 合作,並藉其解決方案創造更符合自然語調、精準正確的語音互動體驗。

免費開放中英雙語語音合成模型及語料庫,希望推動更多台灣在地化智慧語音發展

而此次對外免費開放的中英雙語語料庫,計畫於 Q3 前發布在 NVIDIA DeepLearningExample 開源平台,主要是由一名女性專業錄音員錄製總長達 4.5 小時、總計 2,740 段中英雙語內容,內容更以科技產品相關語句為主,成為亞洲地區第一個免費開放使用的中英雙語語料庫,藉此讓更多業者能夠打造符合台灣人使用的語音系統,同時推動更多以語音為互動的 AI 應用發展。

汪世昌進一步表示,主要考量目前市面上適合中英雙語使用的語言模型資料稀少,同時取得成本較高、取得管道也相對複雜,因此希望透過此次釋出的開放中英雙語語音合成模型及語料庫,催化台灣產學研界打造更好的語音合成應用,未來也期待能透過更多「廣結盟」合作,強化本土技術應用發展。