NVIDIA Maxine 利用 AI 的強大功能重塑即時通信

作者 NVIDIA

人人都希望自己的話語得到有效傳達。現在,越來越多的人會在居家辦公時進行語音視訊或直播。提高聲音在線體驗的關鍵在於提供豐富的語音功能,並避免出現迴音雜訊和狗叫聲等背景噪音。

NVIDIA Maxine 提供了 GPU 加速且支持 AI 軟體開發套件,可幫助開發者建構可擴展的低延遲語音和影像效果管線,提高通話品質和用戶體驗。

今天,NVIDIA 在 GTC 大會上宣布,為了實現更好的音質,將為 Maxine 添加迴音消除和基於 AI 的上採樣技術。

迴音消除可即時消除音頻流中的迴音,即使在模糊不清的通話過程中也能夠保持高品質語音。借助基於 AI 的技術,Maxine 實現了比傳統數位信號處理算法更有效的迴音消除。

音頻超分辨率可使用基於 AI 的技術恢復較高頻段中丟失的能量,提高低帶寬音頻信號的品質。 Maxine 音頻超分辨率支持將音頻從 8 kHz(窄帶)到 16 kHz(寬帶)、從 16 kHz 到 48 kHz(超寬帶)以及從 8 kHz 到 48 kHz 的上採樣。較低的採樣率(例如 8 kHz)通常會導致聲音含糊不清,並會突出齒音等瑕疵,導致語音難以理解。

為了保持原始信號的保真度和清晰度,現代影視工作室通常使用 48 kHz(或更高)的採樣率錄製音頻。音頻超分辨率可幫助恢復時間久遠的音頻錄音(例如源自磁帶或其他低帶寬介質的音頻錄音)的保真度。

彌合音質差距

大多數現代電信都使用寬帶或超寬帶音頻。由於 NVIDIA 音頻超分辨率可以即時上採樣和恢復窄帶音頻,因此該技術可有效彌合傳統銅質電話線與現代 VoIP 寬帶通信系統之間的音質差距。

有了 Maxine,無論是在電話會議、呼叫中心還是各類直播中,即時通信都實現了巨大的飛躍。

自初次發布以來,Maxine 已為多家全球領先的視訊通信、內容創作和直播提供商所採用。

據 Fortune Business Insights 稱,預計到 2028 年,全球視訊會議市場將由 2021 年的 63 億美元增長到近 130 億美元。

WFH 已成為一種生活方式

居家工作(或 WFH)已經成為各公司普遍認可的常態,而且各公司也正在調整新的期望值。

據分析公司 Gartner 估計,到 2024 年,將僅有四分之一的企業會議採用現場召開的方式,低於疫情前的 60%。

在過去兩年的疫情期間,人們一直採用混合或遠程辦公,虛擬協作在美國發揮了重要作用。

但是,組織為了保持公司文化和工作場所體驗,需要更高品質的媒體互動,而風險也會隨之增加。

解決雞尾酒會問題

但是,有時工作與家庭生活會發生衝突。因此,會議時常會充斥著孩子的吵鬧聲、戶外施工聲或緊急車輛警報聲等背景噪音,導致電話會議出現短暫中斷。

Maxine 可幫助解決這個由來已久的稱為雞尾酒會問題的音頻問題。借助 AI,它可以過濾掉不需要的背景噪音,讓用戶無論是居家辦公還是在路上,都能讓通話另一方更清晰地聽到自己的聲音。

Maxine GPU 加速平台提供了一個端到端的深度學習管道,它整合了可定制的一流模型,通過標準麥克風和攝影機提供高品質功能。

展現你最佳的聲音效果

除了受背景噪音影響之外,虛擬活動中的音頻品質有時可能聽起來比較微弱、缺少中低頻率,甚至幾乎聽不見。

Maxine 支持即時上採樣音頻,因此聲音更加飽滿、深厚和清晰。

羅技:提升了耳機和 Blue Yeti 麥克風音效

為了更好地與熱門耳機和麥克風交互,領先的外設製造商羅技採用了 Maxine。

羅技利用 AI 函式庫將 Maxine 直接整合到 G HUB 音頻驅動中,無需額外軟體即可增強與設備的通信。 Maxine 在 RTX GPU NVIDIA 中採用功能強大的 Tensor Core,讓消費者可以即時處理麥克風信號。

當前,羅技在其 G HUB 軟體中採用了 Maxine 先進的降噪技術。這使其可以消除干擾視訊會議或直播會話的迴音和背景噪音(例如風扇、鍵盤和滑鼠點擊聲)。

羅技 G 總經理 Ujesh Desai 表示:“有了 NVIDIA Maxine,羅技 G 遊戲玩家只需單擊一下即可快速輕鬆地清除麥克風信號和消除不必要的背景噪音。您甚至可以使用 G HUB 測試麥克風信號,確保已接入 Maxine 設置。”

騰訊雲提高數位內容創作者效率

騰訊雲通過提供 NVIDIA Maxine 技術,助力內容創作者的生產製作,幫助他們輕鬆快速地添加創意背景。

NVIDIA Maxine 具有 AI 綠屏功能,因此用戶無需使用傳統的綠屏,即可通過高品質的前景和背景分離打造更加身臨其境的臨場感。將真實背景分離後,可以輕鬆地將背景替換為虛擬背景,或進行模糊處理營造場景深度效果。騰訊雲將這種新功能作為軟體即服務包提供給內容創作者。

“NVIDIA Maxine 的 AI 綠屏技術無需專用設備和照明,即可實現更加身臨其境的高品質體驗,幫助內容創作者創作作品。” 騰訊雲音影音平台產品中心總監 Vulture Li 表示。

提升虛擬體驗

NVIDIA Maxine 具有一流的即時 AI 音頻、視訊和擴增實境功能,可內建於可客製化的端到端深度學習管道中。

Maxine 提供的 AI 驅動的 SDK 可幫助開發者創造應用程式,提供音頻和圖像降噪、超高解析度、視線校正、3D 人體姿態估計和翻譯功能。

Maxine 還能將語音即時翻譯為語言,而且支持的語言越來越多。在 GTC 大會上,NVIDIA 演示了使用 Maxine 在英語、法語、德語和西班牙語之間進行互翻。

這些效果將令數百萬人在任意設備上暢享引人入勝的高品質直播視訊。

參加本週的 GTC 大會,通過以下講座詳細了解 Maxine: