基本語音 AI 術語理解指南 - NVIDIA 台灣官方部落格

對語音辨識技術感興趣嗎？請訂閱我們的語音 AI 電子報。

語音 AI 是一種可以使用語音與電腦系統通訊的技術。想要對車內助理下令或操作智慧居家裝置？您無須在螢幕上輸入或點按，AI 語音介面可以協助您與裝置互動。

語音 AI相對較新的領域。但是隨著語音互動日漸成熟，並擴展至新的裝置與平台，對開發人員來說，最重要的是認識不斷演變的術語。

本指南係介紹語音 AI 領域的主要概念、說明它在廣大的 AI 宇宙中的所在位置，並探討它與其他科技領域的關係。

您可能已經聽過，甚至已熟悉這些技術，但是為了能完整說明，以下提供了基礎知識：

語音 AI 系統與 AI、ML 和 DL 有何關係？

語音 AI 是指將 AI 運用於以語音為基礎的技術。語音 AI 系統的核心元件包括：

語音 AI 是對話式 AI (Conversational AI)中的次領域，主要利用來自於 DL 和 ML 領域的技術。AI、ML、DL 和語音 AI 之間的關係可以使用圖 1 的文氏圖表示。

圖 1. AI、ML、DL 和語音 AI 之間的關係

如圖 1 所示，對話式 AI 是較大的宇宙，由以語言為基礎的應用組成，非全部都包含語音元件 (語音)。

以下說明語音 AI 技術如何與其他工具和技術結合成完整的對話式 AI 系統。

對話式 AI是一種設計能以對話方式，透過自然語言與人類使用者互動之智慧系統的學科。商業範例包括居家助理和聊天機器人 (例如保險理賠聊天機器人或旅行社聊天機器人)。

具有多種對話方式，包括聲音、文字、手語，但是當輸入和輸出口語自然語言時，即需要以語音為基礎的對話式 AI 系統 (圖 2)。

以語音為基礎的典型對話式 AI 系統的元件，包括：

搭載語音 AI 技術的語音介面可以讓系統透過口語自然語言形式與使用者互動。
對話系統是管理與使用者的對話，同時與外部履行系統互動，以滿足使用者的需求。它是由兩個元件組成：
- 自然語言理解 (NLU) 模組可以剖析文字和識別相關資訊，例如使用者的意圖以及任何與該意圖有關的參數。例如，如果使用者詢問「明天早上的天氣如何？」，則「天氣資訊」是意圖，時間是從詢問中擷取的相關參數，在此範例中為「明天早上」。
- NLU 是自然語言處理 (NLP) 的一部分，而自然語言處理是語言學和人工智慧的次領域，與處理和分析自然語言資料的運算方法有關。
- 對話管理器監控對話狀態以及決定後續採取的行動。對話管理器是從 NLU 模組取得資訊、記住脈絡，然後履行使用者的要求。
履行引擎執行對話式 AI 系統負責的任務，例如：擷取天氣資訊、閱讀新聞、訂票、提供股票市場資訊、回答一般問題等等。它們通常不是被視為對話式 AI 系統的一部分，而是密切合作，滿足使用者的需求。

語音 AI 概念

本節探討了語音 AI 的概念：自動語音辨識和文字轉語音。

以深度學習為基礎的典型 ASR 管道，包含五個主要元件 (圖 3)。

圖 3. 以深度學習為基礎的 ASR 管道結構

特徵擷取可以將聲音訊號分成固定長度區塊 (又稱時間步階)，然後將區塊從時域轉換到頻域。

此機器學習模型 (通常是多層深度神經網路) 是在聲音資料的各個時間步階，預測字元出現的機率。

解碼器是將聲學模型提供的機率矩陣轉換成一連串的字元，進而構成單字和句子。

語言模型 (LM) 可以提供分數，表示出現訓練語料庫中之句子的可能性。例如，在英文語料庫上訓練的 LM 在判定句子時，「Recognize speech」的可能性將會高於「Wreck a nice peach」，且不可能會出現「Je suis un étudiant」(因為這是法文句子)。

當解碼器與 LM 結合時，可以將「聽到」的句子 (「I’ve got rose beef for lunch」) 修正為較合理的句子 (「I’ve got roast beef for lunch」)，因為 LM 給予第二句的分數將會高於第一句。

標點符號和資本化模型加入標點符號，以及將解碼器產生的文字大寫化(Capitalization)。

最後，套用反向文字正規化 (ITN) 規則，將口語格式文字轉換成需要的書面格式，例如將「ten o’clock」轉換成「10:00」，或將「ten dollars」轉換成「$10」。

單字錯誤率 (WER) 和字元錯誤率 (CER) 是 ASR 系統的典型效能指標。

WER 是將錯誤數量除以口語單字總數。例如，如果總共 50 個口語單字中有五個錯誤，則 WER 為 25％。

CER 的運作方式類似，不同之處在於針對字元而不是單字。日文、中文等語言沒有以特定標記或分隔符號 (例如英文空格) 分隔的「單字」。

通常使用兩種不同的方法完成文字轉語音步驟：

兩階段管道的元件為：

文字正規化模型：將書面格式的文字轉換成口語格式，例如將「10:00」轉換成「ten o’clock」、將「$10」轉換成「ten dollars」。此過程與 ITN 相反。
聲譜圖產生器網路：TTS 管道的第一階段是使用神經網路從文字產生聲譜圖。
聲碼器網路：TTS 管道的第二階段是將來自聲譜圖產生器網路的聲譜圖視為輸入，並產生聽起來自然的語音。

語音合成標記語言

其他 TTS 概念包括語音合成標記語言 (SSML)，一種以 XML 為基礎的標記語言，讓您可以指定如何將輸入文字轉換為合成語音。您的配置可以使用音高、發音、說話速度、音量等參數，使產生的合成語音變得更生動。

常見的 SSML 標籤包括：