說到人工智慧:新創公司讓印度各地說不同語言的人,獲得深度學習的強大能力

作者 Isha Salian

未來幾年將會有大批剛接觸到智慧型手機的新用戶開始連上網路,其中有許多人連一個英語單字不會說也不會讀,而偏偏英語又是網路上最通用的語言。

為了讓數以億計的這些新用戶能夠更順暢地使用網路,一間位於印度班加羅爾的新創公司為在印度使用的十種語言打造人工智慧語音工具。到2020年時,印度會有超過六億人擁有智慧型手機,可是在印度只有1.25億人會使用英語,而這些人當中又有大多數人將英語當成第二語言

「印度的網路普及率雖在不斷提高,對於不懂讀寫英語的用戶來說,市場仍然存在著缺口。就算有些東西是用他們自己的語言所書寫的,每個用戶也不一定就能看懂。我們可以讓這些客戶用他們自己的母語與語音進行互動。」Gnani.ai 的共同創辦人 Ananth Nagaraj 說,而 Gnani.ai 同為 NVIDIA Inception 計畫的成員之一。

印度這個國家在語言方面的多元性,對於想要跟印度境內的13.7億人進行溝通的政府機構及私人公司來說,都是一大挑戰。印度有22種主要語言及約100種其它語言,每種語言又有一萬名以上的使用者。

處理多種語言的人工智慧語音引擎工具可以充當語音助理,接聽客戶的電話或是利用語音執行交易活動,以利網路兩端的使用者進行對話。

Gnani.ai 提供 API 及語音助理解決方案給電商公司、保險公司、銀行和金融公司。Gnani.ai 使用位於雲端環境的 NVIDIA GPU 開發這項語音工具,支援整個印度次大陸上使用的語言,包括印度式英語、印地語、孟加拉語、古吉拉特語、卡納達語、馬拉雅拉姆語、馬拉地語、旁遮普語、泰米爾語及泰盧固語。

現在人工智慧會說我用的語言

儘管用來製作線上內容的語言,已經從1990年代英語佔八成的局面,變成目前英語只佔 25%,但對印度各地使用不同語言的人來說,還是沒有一個適合他們的好用介面。

即使是把英語作為第二語言的印度人,還是喜歡使用以其母語製作的線上內容。不過電腦和行動裝置上的鍵盤,大多數仍是預設使用 QWERTY 的鍵盤配置方式,難以輸入天城文(Devanagari)這類印度當地使用的文字。包括印地語在內的多種語言仍在使用天城文,目前有五億人還在使用。

印度的地方政府必須用英語及各邦的官方語言發布每一份通訊內容。Nagaraj 表示 Gnani.ai 的語音轉文字工具可以將執行這項作業的速度加快四倍。

這間新創公司的語音助理軟體可以納入企業的行動應用程式和網站,或者當成互動式語音機器人,用來接聽客服電話。

Gnani.ai 已經收集到超過五萬個小時帶有註釋的語音資料,來開發其人工智慧模型。這間新創公司使用有著 NVIDIA V100 Tensor Core GPU 支援的 Amazon EC2 P3 執行個體來開發其演算法,與使用 CPU 相比,訓練速度加快了二十倍。

Nagaraj 表示他們之所以選擇使用 AWS 雲端 GPU,原因在於它們可以更容易同時啟動多個叢集,以便進行大規模資料訓練活動。Gnani.AI 使用 CUDA 矩陣函式庫及用於 TensorFlow 的 NVIDIA 自動混合精度功能,將訓練神經網路的速度提高三倍。

展開對話

Nagaraj 表示公司團隊覺得人工智慧語音助理可以提高支援客戶的效率,而企業使用會操多種語言的語音機器人,就能透過人工智慧讓客戶享受到個人專屬的服務內容,也讓真人接線員可以花更多時間去處理來電者的複雜問題。

在作業流程中加入 Gnani.ai 軟體的銀行客戶,便能讓自動化系統協助客戶取得其帳戶對帳單或是凍結信用卡,同時讓真人員工處理更細微的作業。語音助理甚至可以用客戶喜歡的語言來聯絡對方,以協調支付保費事宜、協助高齡客戶預約計程車,或是將農作物的價格資訊提供給農民。

Nagaraj 說他們把公司設立在班加羅爾,「與一些全球供應商相比,我們的準確度要更高,因為我們知道在印度這個有著多元種族的國家裡,不同語言及方言之間的細微差異,這有助於我們調整自己的人工智慧演算法,以更貼近這個市場的需求。」

自從在2016年成立以來,Gnani.ai 已經在印度與二十多間大型企業進行測試或部署該公司的語音助理解決方案。日前獲得三星旗下創投公司資金挹注的 Gnani.ai,打算在2020年時將其客服中心自動化人工智慧工具,擴大到包括美國在內的其他國家。