SoundHound 深耕語音人工智慧市場

作者 Crowd Favorite

SoundHound 學了一些新的人工智慧技巧。

這間來自矽谷、開發出人工智慧語音服務的新創公司,在擴大產品規模之際獲得了一億美元的策略性投資資本。

除了打響該公司名號的音樂辨識 app 外,SoundHound 還推出 Hound 語音搜尋 app 及 Houndify 語音平台,供企業打造人工智慧語音服務。在擠滿業界大咖的語音搜索服務市場裡,其實該公司的技術早就能取代那些大廠的產品。

跟受到追捧的 Amazon、Apple、Google 及 Microsoft 相比,SoundHound 處於下風。

SoundHound 迅速突顯出其在語音領域或流暢處理自然語言主題的長才,在兩年內從五十個應用領域擴張到兩百個,並且改善了語音服務,幅度超越 Apple 旗下 Siri 語音服務助理的進步程度。

支持新創公司鑽研深度學習的 NVIDIA GPU Ventures,是 SoundHound 的早期投資者。

加入集團

SoundHound 還繼續推動互通性(指領域間彼此交談的能力),以便搶先向消費者提供更佳的搜尋功能。SoundHound 稱這項作為是「Collective AI」,表示此舉讓產品能使用更聰明強大的架構。

Collective AI 想讓人們能提出複雜的問題和得到回應,像是「找出舊金山最好的義大利餐廳,要四星級以上,歡迎孩子,不是連鎖店,有開到週三晚上九點以後」。

SoundHound 的 Collective AI 聯盟成員有 NVIDIA、Yelp、AccuWeather.com、Sportstrader、Xignite、FlightStats、Onkyo、Sharp、Uber 及 Samsung ARTIK。

SoundHound 也希望藉由 Houndify 脫穎而出。白標授權服務讓企業能在產品裡使用自己的品牌名稱,對語音助理賦予更多自我色彩和保留產生出的客戶資料。如此一來使得企業能建立自己的語音搜尋品牌,利用從客戶資料中產生的其它商機。

相較之下,Amazon 授權客戶使用 Alexa,客戶必須在查詢時喊出「Alexa」,這個服務交付大型公司還擁有客戶資料。Apple 並不開放授權使用 Siri 語音助理;Google 則是不允許使用者自行定義其 Google Assistant 的名稱或持有客戶建立的資料。

Houndify 的開發者數量增長三倍

開發商爭相使用 Houndify。去年初 SoundHound 的 Houndify 有兩萬多名註冊開發者,現已增加到六萬多人。

SoundHound 也為 Houndify 招來不少客戶。目前 SoundHound 與11間汽車製造商攜手合作,合作對象還包括將 Houndify 加入機器人、連網喇叭、家電、擴增實境及智慧家居設備的業者。

現代(Hyundai)汽車將導入 Houndify,為日後的車款開發下一代的語音服務。該車廠的主動式行車助理會預測駕駛人對資訊的需求,例如提供會議提醒。此語音服務還支援免持通話、收發簡訊、目的地和音樂搜尋,以及查看天氣和管理行事曆。也能使用語音來控制空調、門鎖及其它車輛功能。

SoundHound 的語音至意義技術能藉由 NVIDIA DRIVE 與 Jetson TX2 平台,分別用於車輛和機器人。

Searidge control windows 用於機器人的 Jetson TX2 開發模組

語音辨識的雙重方法

SoundHound 採用了一種新穎的方法來即時提供語音辨識功能,這種由本地辨識模型與遠端辨識引擎執行語音辨識的雙重方法系統已經獲得專利。SoundHound 的混合雙重技術利用 NVIDIA DRIVE 的 GPU,更快處理語音查詢內容。

SoundHound 的雙重方法能即時回應車輛中的語音查詢內容,這對於汽車產業來說是開創新局的技術,過去語音系統的回應速度簡直是慢到讓人氣餒。

這種聰明才智使得人工智慧能用在網路邊緣。以前嵌入式技術只能辨識少量字彙,速度和準確度也不高。不過 SoundHound 利用 NVIDIA GPU,能夠辨識語音裡的大量字彙,也能以高速和高準確率來理解自然語言。

SoundHound 的共同創辦人暨執行長 Keyvan Mohajer 表示:「我們使用 NVIDIA DRIVE 平台打造這套系統的嵌入式版本,可以擴大到納入百萬字以上的自然語言。它的處理速度極快,還能擴大範圍。」

在機器人領域裡,Mayfield Robotics 在開發 Kuri 機器人之際,將 Houndify 用於讓人們能跟機器人進行語音互動和指導機器人。

在家電方面,Bunn 已經在 Sure Immersion 咖啡機上使用 Houndify 展示了一個參考模型,說出「OK, barista」的句子時,咖啡機便會開始運作。除了使用語音指令來操作機器煮咖啡,用戶也可以在等待煮咖啡的同時搜尋天氣、體育和其它資訊。

SoundHound 使用 NVIDIA GPU 來訓練神經網路及深度學習,還經營自家運行著 GPU 的資料中心。SoundHound 的自然語言處理功能在數千具伺服器上運行著,要處理多達數 TB 的資料量。

Mohajer 說:「有了 GPU,以前要花上幾個月才能處理的東西,現在只要幾天就能完成。少了 GPU,這個產業便無法前進發展。」