NVIDIA Jarvis 與 Merlin 進入開放測試階段,實現對話式人工智慧與普及推薦系統

作者 Scott Martin

Jarvis 簡化了開發互動式對話式人工智慧代理人的過程,而 Merlin 則是加快了資料載入和訓練時間,讓各類線上企業能提出更佳的推薦內容。

我們都有過這樣的經歷:飢腸轆轆地在路上開著車。如果能問問車上的行車助理,按照你的口味喜好來推薦附近的美食,這樣是不是很棒?

現在任何企業只要使用 NVIDIA 的 GPU 系統和軟體函式庫,就能打造和部署這樣的體驗。原因在於用於對話式人工智慧服務的 NVIDIA Jarvis,還有用於推薦系統的 NVIDIA Merlin,均已進入開放測試階段。NVIDIA 執行長黃仁勳在今天的 GPU 技術大會上,宣佈了這項消息。

在我們的數位世界中,從未像現在對用於語音服務及推薦系統的人工智慧,有著如此迫切的需求,開發工具卻未跟上這個腳步。没錯,對於更佳語音人工智慧服務的需求正在急劇增長。

愈來愈多人在家裡工作,從遠端進行學習、購物、看病等活動,這些都給服務帶來壓力,也暴露出用戶體驗的不足。根據《哈佛商業評論》的一份報告指出,部分客服中心表示通話保留時間增加了 34%,通話轉呈的比例則是增加了 68%。

現在的推薦系統在網路上會給予符合個人需求的建議,但往往顯現出不足之處。零售業的推薦系統會推薦消費者最近買過的商品,或者繼續用討人厭的促銷活動來糾纏人們。媒體和娛樂業往往更多是推薦相同的內容,不會出現多樣化的選擇。這些系統通常相當粗糙,只會依循過去推薦過或相似的內容來提供建議給用戶。

NVIDIA Jarvis 與 NVIDIA Merlin 讓企業能夠探索更大的深度學習模型,開發出更細緻聰明的推薦系統。使用 Jarvis 開發出的對話式人工智慧服務,還有以 Merlin 開發出的推薦系統,讓用戶可以更快速地取得企業更好的服務。

Jarvis 早期試用者的進展

NVIDIA 開發者計畫中的部分公司早就開始使用 NVIDIA Jarvis 來開發對話式人工智慧服務。早期採用者包括開發客服中心支援人工智慧代理程式的 Voca;開發用於金融業與商業自動語音轉錄功能的 Kensho;以及提供預約虛擬助理的 Square

來自倫敦並提供高效能語音辨識服務Intelligent Voice,該公司的技術長 Nigel Cannings 表示,他們一直在尋找更多的東西。

「Jarvis 採用多模態方法,將自動語音辨識的關鍵元素與實體及意圖匹配融合起來,以滿足需要高處理量和低延遲這種新的使用範例。Jarvis API 很簡單就能使用,且隨著客戶的工作流程進行整合及客製化,以獲得最佳效能。」

它讓 Intelligent Voice,也是我們新創加速器的一員,在新冠肺炎疫情期間迅速做出調整,用破紀錄的時間內將一個全新產品 Myna 上市,準確有用地整理會議內容。

需要更好的對話式人工智慧

在美國,客服中心的助理們每天要處理兩億通電話,遠端醫療服務每天創造出240萬筆就診紀錄,這些都要求用極高的準確度來轉錄語音內容。

傳統的語音系統仍有改善的空間。受限於 CPU 的處理能力,低品質的模型造成機器人語音產品出現嚴重的延遲情況。Jarvis 加入當今規模最大的 Megatron-BERT 模型,可以提供最高的精準度和最低的延遲性。

部署自然進行互動對話的即時對話式人工智慧,要在 300 毫秒內完成模型運算作業,而搭載 CPU 的模型則要用到 600 毫秒。

Jarvis 藉由感應器融合技術(整合攝影機和麥克風)提供更自然的互動,即時處理多個資料串流的能力,能夠提供更優質的服務。

複雜的模型管道、更易用的解決方案

對話式人工智慧中有著複雜的模型管道,得在多個服務之間進行協調。

若要跟自動語音辨識模型、自然語言理解、文字到語音及特定領域應用程式共同大規模運行對話式人工智慧,則要用到微型服務。以平行處理的方式加快運行這些極為專業化的任務,比起單純使用 CPU 的伺服器,在成本方面的優勢高出三倍。

NVIDIA Jarvis 是一個綜合性的框架,為建構對話式人工智慧應用程式提供軟體函式庫,且加入 ASR、NLU、TTS 和電腦視覺等使用最新深度學習模型的 GPU 優化服務。

開發者可以在他們的應用程式中融入這些技能,快速幫助我們這些餓著肚子的度假者找到地方吃飯。

Merlin 建立一個更具相關性的網路內容

推薦系統是創造出個人化網路內容的引擎,它們在網路上無所不在。它們會推薦你可能喜歡的食物、呈現跟你購買過的相關商品,並且當你在不同網站間切換時,通過重新定向的產品廣告來找到你的興趣。

不過當推薦系統未盡全力時,人們可能會空手而歸,企業也賺不到錢。

在一些全球最大的電商網站上,推薦系統創造出三成的收入。只要推薦的相關性提高 1%,就能變成數十億美元白花花的鈔票。

在 GPU 上大規模運行推薦系統

騰訊的推薦系統支持著影片、新聞、音樂及應用程式的運行,而騰訊在使用 NVIDIA Merlin 的情況下,將推薦系統的訓練時間從二十小時減少到三小時。

「在使用 Merlin HugeCTR 廣告推薦加速框架後,可以更快速精準地訓練我們的廣告業務模型,有望提升網路廣告的效果。」騰訊技術工程事業群的人工智慧技術部門主管 Ivan Kong 表示。

普及讓更多人用到推薦系統

現在大家都可以使用 NVIDIA Merlin 應用程式框架,讓各類企業建立由 NVIDIA GPU 加速運行的推薦系統。

Merlin 的函式庫集合內有用於建構深度學習系統的工具,這些系統可以提供比傳統方法更精準的預測且提高點擊率。管道的每個階段都經過優化,能夠支援數百 TB 的資料,皆通過易於使用的 API 就能取得。

全球最大的媒體公司之一已經採用 Merlin,全球也有數百家公司在對它進行測試。美國的社交媒體巨頭正在測試它分享相關新聞的能力。串流媒體服務商正在測試它推薦接下來要觀看和收聽內容的情況。各大零售商也在研究它如何推薦用戶下一次要購買的商品。

有興趣的朋友可以深入瞭解從最初推出 Merlin 以來背後技術的進步幅度,包括它支援 NVTabular、多重 GPU、HugeCTRNVIDIA Triton 推論伺服器的情況。

企業可以登記參加 NVIDIA Jarvis 測試活動,以獲取對話式人工智慧的最新發展資訊,以及開始使用 NVIDIA Merlin 測試版,用最快方式上傳海量訓練資料,大規模部署推薦系統。 

你可在下面的影片中觀看 NVIDIA 創辦人暨執行長黃仁勳在 GTC 上的重要新聞回顧。