人工智慧現在可以看得更清楚:GAN 消除了視訊通話畫面中的抖動情況

作者 Sid Sharma

劉洺堉和 Arun Mallya 兩人在進行視訊通話時,其中一個人開始因為噪音或其它干擾而聽不見,接著畫面就不動了。

在疫情爆發期間,我們大多數人常會在生活中遇到這種令人不快的情況,不過劉洺堉及 Arun Mallya 兩人跟我們多數人不同,反而試著解決這個問題。

劉洺堉與 Arun Mallya 都是 NVIDIA 的人工智慧研究員,也是電腦視覺領域的專家。他們跟同事 Ting-Chun Wang 合作,察覺到可以用神經網路來取代通常用於視訊編解碼器,也就是通常用於壓縮和解壓視訊內容的軟體,以便在網路上進行傳輸。

他們的研究促成只要使用尋常十分之一的頻寬量,就能進行視訊通話,有望在未來將 NV 頻寬消耗量降低一個數量級。

「我們希望用人工智慧讓人們享受到更高品質的視訊通話體驗,這麼一來就算只能取得極低頻寬的人,也能從語音通話升級到視訊通話。」Mallya 說。

拜 GAN 之賜,創造出更佳的連線品質

即便來電者戴著帽子、眼鏡、耳機或口罩,這項技術也能派上用場。他們還在自己的演示內容中加上了幾個鈴鐺和哨子,使用者就能用數位方式改變自己的髮型或衣服,或者建立一個分身,讓演示內容變得更加有趣。

在他們的研究成果中,有一項更重要的功能,便是使用神經網路來調整使用者的臉部位置,以獲得更自然的使用體驗。來電者看著視訊通話畫面,但他們更像是直接看著攝影機,加大了面對面通話的感覺。

「我們使用電腦視覺技術,可以透過多個角度來定位一個人的頭部,覺得這麼做有助於人們進行更自然的對話。」Ting-Chun Wang 說。

歡迎這項人工智慧使虛擬生活變得更加真實的最新方式。

人工智慧協助進行視訊通話的運作方式

人工智慧協助進行視訊通話的機制其實並不難。

傳送方先發送來電者的參考圖像,就像現在的系統通常使用壓縮的視訊串流內容一樣。接著它不是發送一個充滿大量像素影像的串流內容,而是發送使用者眼睛、鼻子和嘴巴四周幾個關鍵點位置的資料。

接受方的生成對抗網路使用初始圖像和臉部關鍵點,在本地 GPU 上重建後續圖像,此舉就能大幅減少透過網路發送的資料量。

劉洺堉在生成對抗網路方面的研究工作,在去年因為 GauGAN 而受到關注(GauGAN 是一款可以將塗鴉變成畫面逼真藝術作品的人工智慧工具)。現已使用 GauGAN 創作出超過百萬張圖片,在 AI Playground 就有提供這項工具。

劉洺堉說:「新冠肺炎疫情激發了我們的想法,現在大家都在開視訊會議,我們便探討要怎麼緩解頻寬使用瓶頸,讓供應商可以同時服務更多人。」

GPU 突破頻寬使用瓶頸

這種方法是產業趨勢的一個面向,也就是把網路頻寬瓶頸變成運算任務,就能更輕鬆地用本地或雲端資源來解決。

NVIDIA 媒體事業群先進產品部門總監 Andrew Page 說:「現在有很多公司都想把頻寬問題變成運算問題,要加入更多頻寬並不容易,而加入更多運算資源則是簡單多了。」

NVIDIA Maxine 結合一套視訊會議及串流服務的工具。

人工智慧工具調整視訊服務

GAN 視訊壓縮是 NVIDIA Maxine 即將推出的多項功能之一。NVIDIA Maxine 是一套在雲端 GPU 上運行的新工具,用於增強視訊會議和串流視訊服務。它將音訊、視訊和對話式人工智慧功能裝在一個工具套件中,支援多項裝置。

本週在 GTC 大會上發佈的 NVIDIA Maxine,讓服務提供商能夠以超高解析度來傳送視訊內容,還加入即時翻譯、去除背景雜音及情境感知隱藏字幕等功能。用戶可以享受到臉部對齊、支援虛擬助手和逼真分身動畫等功能。

「視訊會議將經歷一場復興。我們在今年的這場疫情中都感受到無比傷痛,人類是視覺動物,視訊已經成為我們生活中的一部分」Page 說。

Maxine 利用 NVIDIA GPU 搭配 Tensor Core 的力量,運行 NVIDIA Jarvis 等軟體(NVIDIA Jarvis 是一個對話式人工智慧的SDK,提供一套語音和文字功能)。它們共同提供了現在能夠派上用場的人工智慧功能,也是建構未來視訊產品和服務的基礎。

深入瞭解 NVIDIA Research。並在下面的影片中觀看 NVIDIA 創辦人暨執行長黃仁勳在 GTC 上的重要新聞回顧。