字詞的力量:對話式 AI 成功重寫了教科書

作者 Sid Sharma

在各個行業,各家公司正在透過深度學習將文字和語音轉換為業務成果。

當新創公司 Kensho 在 2018 年 3 月被 S&P Global 以 5.5 億美元的價格收購時,Georg Kucsko 感覺就像在糖果店裡的孩子。

Kensho 及其團隊的 AI 研究負責人持著巧克力冒險工廠主人威利旺卡的金色獎券之一掉了下來:S&P 長達 100,000 小時的錄音和精心轉錄的音頻文件。

數據集幫助 Kensho 建構了 Scribe,Scribe 被認為是金融行業中最準確的語音識別軟體。它可以快速且低成本地轉錄電話會議和其他商務會議的記錄,從而幫助標普將覆蓋範圍擴大到 1,500 家公司,並在自己的季度電話會議中獲得了公司執行長的讚譽。

“我們使用這些轉錄本來訓練可以更快地完成工作的語音識別模型,這是一個沒人想到的新角度。它使我們能夠大大改善這一過程。”Kucsko 說。

這是對話式 AI 的眾多功能之一。

嗡嗡聲是什麼一回事

對話式 AI 成為話題的原因有很多。

它可以將語音轉換為可搜索到的文字。它將文字轉換為語音,您可以在工作或開車時免持聽筒收聽。

隨著它變得越來越聰明,它對聽和讀的內容有了更多的了解,它也變得更加有用。這就是為什麼對話式 AI 一詞迅速傳播的原因。

會話式 AI 或許最著名的是 Siri 和 Alexa 的語言,但備受矚目的虛擬助手與越來越多的語音助手也逐漸浮上抬面。

企業正在使用該技術來管理合同。醫生在病人檢查期間用它做筆記。而且,一些公司的常態工作清單正在利用它來改善客戶支持。

完整覆蓋文字

Square Inc. 對話式 AI 專家 Gabor Angeli 在 GTC Digital 的一次會議演講上介紹了他的公司的工作時說:“買賣雙方之間存在著很大的交流領域,我們可以並且應該幫助人們進行導航。”

Deloitte 在其 dTrax 軟體中使用了對話式 AI,該軟體可幫助公司管理複雜的合同。例如,當法規發生變化或公司計劃進行大規模收購時,dTrax 可以找到並更新長期協議中的關鍵條款。該軟體運行在 NVIDIA GPU 上,於 2019 年獲得了《金融時報》的智慧業務獎。

中國最大的保險公司中國平安已經在使用對話式 AI 來銷售保險。這是一款性能要求很高的應用程式,可在 GPU 上運行,因為它需要大量智慧才能評估演講者的情緒和情感。

在醫療保健領域,Nuance 提供了經過對話訓練的 AI 軟體,這些軟體經過 NVIDIA GPU 和軟體的訓練,大多數放射線醫生會用來進行轉錄,而其他許多醫生會用來記錄患者的檢查。

Voca.ai 在 NVIDIA GPU 上部署 AI 模型,因為與 CPU 相比,它們將推論工作的延遲降低了一半。這是其服務的關鍵,該服務可以自動應答每月最多有 1000 萬人的客服電話。

構築自動對話

該技術建立在對話式 AI 函式庫的廣泛軟體基礎之上,所有這些都由 GPU 加速。最受歡迎的是在 GitHub 知識庫上獲得很多“星星-star”,相當於 Facebook 上的“喜歡-likes”或瀏覽器中的”書籤-bookmark”。它們包括:

  • Huggingface,2.61 萬顆星
  • Fast.ai,1.78 萬顆星
  • SpaCy,16.3 萬顆星
  • Kaldi,8.7k 星
  • DeepPavlov,4.2k 星
  • ESPnet,2.2k 星

為了更輕鬆地開始使用對話式 AI,NVIDIA 還提供了一組不斷增長的軟體工具。

Kensho 和 Voca.ai 已經使用 NVIDIA NeMo 建構了最先進的會話式 AI 演算法。這些機器學習和深度學習模型可以在任何公司的數據上進行微調,以針對其特定用例提供最佳的準確性。

NVIDIA 去年秋天宣布 NeMo 時,它還發布了 Jasper,這是一種 54 層自動語音識別模型,可以將單詞錯誤率降低到 3 %以下。它是 NVIDIA 針對 GPU 加速軟體的目錄,NGC 提供了幾種針對準確度優化的模型之一。

向對話 AI 代言人 Jarvis 問好

今天,我們推出 NVIDIA Riva,這是一個用於建構和部署融合視覺,語音和語言理解能力的 AI 服務的應用程式框架。這些服務可以部署在雲端,數據中心或邊緣中。

Riva 包含用於建構 GPU 加速的對話式 AI 應用程式的深度學習模型,該模型能夠理解每個公司及其客戶專有的術語。它包括 NeMo,可在特定領域和客戶數據上訓練這些模型。這些模型可以利用 TensorRT 來最大程度地減少延遲並最大程度地提高 AI 推論任務的吞吐量。

Riva 服務在 A100 GPU 上運行僅 150 毫秒。 這遠遠低於即時應用程式的 300ms 閾值以及在 CPU 上運行相同模型所需的 25 秒時間。

Jarvis 今天準備服務

Kensho 已經在 Riva 中測試了一些工具。

“我們經常使用 NeMo,我們非常喜歡它,” Kucsko 說。 他說:“ NVIDIA 的見解,甚至使用不同的數據集進行大規模訓練,都為我們提供了至關重要的見解。”

對於 Kensho 而言,使用此類工具是在 Scribe 內部調整 AI 模型的自然下一步。 當 Kensho 開發原始軟體時,NVIDIA 在其 DGX SuperPOD 系統之一上訓練了這些模型。

Kucsko 說:“我們擁有數據,並且擁有 GPU,這造就了我們兩個實驗室的精彩合作關係。”

“像這樣的深度學習工作,NVIDIA GPU 是絕對必要的。 對於大規模的深度學習,幾乎沒有別的選擇,”他補充說。