人工智慧現在可以看得更清楚：GAN 消除了視訊通話畫面中的抖動情況

劉洺堉和 Arun Mallya 兩人在進行視訊通話時，其中一個人開始因為噪音或其它干擾而聽不見，接著畫面就不動了。

在疫情爆發期間，我們大多數人常會在生活中遇到這種令人不快的情況，不過劉洺堉及 Arun Mallya 兩人跟我們多數人不同，反而試著解決這個問題。

劉洺堉與 Arun Mallya 都是 NVIDIA 的人工智慧研究員，也是電腦視覺領域的專家。他們跟同事 Ting-Chun Wang 合作，察覺到可以用神經網路來取代通常用於視訊編解碼器，也就是通常用於壓縮和解壓視訊內容的軟體，以便在網路上進行傳輸。

他們的研究促成只要使用尋常十分之一的頻寬量，就能進行視訊通話，有望在未來將 NV 頻寬消耗量降低一個數量級。

「我們希望用人工智慧讓人們享受到更高品質的視訊通話體驗，這麼一來就算只能取得極低頻寬的人，也能從語音通話升級到視訊通話。」Mallya 說。

拜 GAN 之賜，創造出更佳的連線品質

即便來電者戴著帽子、眼鏡、耳機或口罩，這項技術也能派上用場。他們還在自己的演示內容中加上了幾個鈴鐺和哨子，使用者就能用數位方式改變自己的髮型或衣服，或者建立一個分身，讓演示內容變得更加有趣。

在他們的研究成果中，有一項更重要的功能，便是使用神經網路來調整使用者的臉部位置，以獲得更自然的使用體驗。來電者看著視訊通話畫面，但他們更像是直接看著攝影機，加大了面對面通話的感覺。

「我們使用電腦視覺技術，可以透過多個角度來定位一個人的頭部，覺得這麼做有助於人們進行更自然的對話。」Ting-Chun Wang 說。

歡迎這項人工智慧使虛擬生活變得更加真實的最新方式。

人工智慧協助進行視訊通話的機制其實並不難。

傳送方先發送來電者的參考圖像，就像現在的系統通常使用壓縮的視訊串流內容一樣。接著它不是發送一個充滿大量像素影像的串流內容，而是發送使用者眼睛、鼻子和嘴巴四周幾個關鍵點位置的資料。

接受方的生成對抗網路使用初始圖像和臉部關鍵點，在本地 GPU 上重建後續圖像，此舉就能大幅減少透過網路發送的資料量。

劉洺堉在生成對抗網路方面的研究工作，在去年因為 GauGAN 而受到關注（GauGAN 是一款可以將塗鴉變成畫面逼真藝術作品的人工智慧工具）。現已使用 GauGAN 創作出超過百萬張圖片，在 AI Playground 就有提供這項工具。

劉洺堉說：「新冠肺炎疫情激發了我們的想法，現在大家都在開視訊會議，我們便探討要怎麼緩解頻寬使用瓶頸，讓供應商可以同時服務更多人。」

這種方法是產業趨勢的一個面向，也就是把網路頻寬瓶頸變成運算任務，就能更輕鬆地用本地或雲端資源來解決。

NVIDIA 媒體事業群先進產品部門總監 Andrew Page 說：「現在有很多公司都想把頻寬問題變成運算問題，要加入更多頻寬並不容易，而加入更多運算資源則是簡單多了。」

GAN 視訊壓縮是 NVIDIA Maxine 即將推出的多項功能之一。NVIDIA Maxine 是一套在雲端 GPU 上運行的新工具，用於增強視訊會議和串流視訊服務。它將音訊、視訊和對話式人工智慧功能裝在一個工具套件中，支援多項裝置。

本週在 GTC 大會上發佈的 NVIDIA Maxine，讓服務提供商能夠以超高解析度來傳送視訊內容，還加入即時翻譯、去除背景雜音及情境感知隱藏字幕等功能。用戶可以享受到臉部對齊、支援虛擬助手和逼真分身動畫等功能。

「視訊會議將經歷一場復興。我們在今年的這場疫情中都感受到無比傷痛，人類是視覺動物，視訊已經成為我們生活中的一部分」Page 說。

Maxine 利用 NVIDIA GPU 搭配 Tensor Core 的力量，運行 NVIDIA Riva 等軟體（NVIDIA Riva 是一個對話式人工智慧的 SDK，提供一套語音和文字功能）。它們共同提供了現在能夠派上用場的人工智慧功能，也是建構未來視訊產品和服務的基礎。

深入瞭解 NVIDIA Research。並在下面的影片中觀看 NVIDIA 創辦人暨執行長黃仁勳在 GTC 上的重要新聞回顧。