人工智慧一出,所向披靡:NVIDIA Research 在 SIGGRAPH 大會憑藉數位化身,獲得「最佳展示」獎

作者 NVIDIA

NVIDIA 的研究人員在 SIGGRAPH 2021 大會的 Real-Time Live 展示活動中,把四個人工智慧模型塞進了數位化身技術中,榮獲最佳展示獎。

Real-Time Live 展示活動是 SIGGRAPH 2021 這場全球最盛大的電腦繪圖大會中,最令人期待的活動之一,今年以虛擬線上的方式舉行,展出各項跨越遊戲技術、擴增實境及科學視覺化等領域最尖端的即時專案。觀眾們可以欣賞到一系列通過評審團審查的互動式研究案,還邀請到來自 Unity Technologies、壬色列理工學院、紐約大學 Future Reality Lab 等單位的講者。

NVIDIA Research 團隊從 NVIDIA 的矽谷總部以直播的方式,展示了多個能夠為具頻寬效益的視覺會議及說故事等專案,建立逼真虛擬角色的人工智慧模型

這場展示活動的亮點是使用多項工具,將一張照片產生出數位化身,以自然的 3D 臉部動作及將文字轉換成語音等功能,為化身製作動畫。

NVIDIA 應用深度學習研究部門副總裁 Bryan Catanzaro 在演講中說道:「眾所皆知,製作數位化身並不容易,過程繁瑣,又要耗費大量人力物力。」不過有了人工智慧工具,「就能輕鬆為真人及卡通人物建立數位化身。這個化身可以用在視訊會議、講故事、虛擬助理等許多其他應用項目上。」

人工智慧在面試中的優秀表現

兩名 NVIDIA 的研究科學家在展示活動中,扮演了視訊會議裡的面試官及求職者。在通話過程中,求職者展現出由人工智慧驅動的數位化身,與面試官進行應答的能力。

扮演被面試者的研究人員全程使用 NVIDIA RTX 筆記型電腦,另一位則是使用搭載 RTX A6000 GPU 的桌上型工作站。整個作業管道也可以在雲端的 GPU 上運行。

戴著棒球帽和口罩的求職者坐在園區的咖啡館裡,使用 Vid2Vid Cameo 模型,在視訊通話的畫面中,出現了穿著有領襯衫、鬍子也刮乾淨的臉孔(如上圖所示)。這個人工智慧模型使用求職者的一張照片,便能建立出逼真的數位化身 – 無需進行 3D 掃描或專門的訓練影像。

他說:「人工智慧模型即時便建立出數位化身,我可以使用不同的照片,很快再建立另一個化身。」他用自己的另外兩張照片來展示這種能力。

研究人員的系統並沒有傳輸視訊串流內容,只有傳送他的聲音 – 他的聲音會送入 NVIDIA Omniverse Audio2Face 應用程式。Audio2Face 產生頭部、眼睛和嘴唇的自然動作,在 3D 頭部模型上即時配合輸入的聲音。這個臉部動畫送進 Vid2Vid Cameo,跟講者的數位化身合成自然的動作。

研究人員的聲音不只是用在逼真的數位化身上,還通過 Audio2Face 和 Vid2Vid Cameo 來輸入自己的聲音,為動畫角色進行配音。他說開發人員利用  NVIDIA StyleGAN,就能按照卡通人物或繪畫,建立無限個數位化身。

這些經過優化,可以在 NVIDIA RTX GPU 上運行的模型,能夠輕鬆以每秒30幀速度來傳輸影片。它的頻寬效率也很高,講者只有在網路上發送聲音資料,而非傳輸高解析度的影片。

研究人員進一步表示如果咖啡店裡面太吵,RAD-TTS 模型可以將輸入的文字訊息轉換成聲音 – 取代輸入 Audio2Face 的聲音。這個突破性的文字轉語音深度學習工具,可以在幾毫秒內將任意輸入的文字,合成出逼真的語音內容。

RAD-TTS 可以合成多種聲音,幫助開發人員賦予書中人物生命,甚至是開口唱出像是歌手 Eminem 的《The Real Slim Shady》饒舌歌曲,正如研究團隊在演示結尾處所展示的那樣。

SIGGRAPH 大會將持續到8月13日。請見 NVIDIA 在 SIGGRAPH 大會的完整活動清單,也歡迎在8月11日參加我們的紀錄片《Connecting in the Metaverse: The Making of the GTC Keynote》首映活動。