NVIDIA 的研究人員藉由生成對抗網路做到猶如人類一般的想像力。
想像一下在一頭獅子的臉上,可以看到你養的那隻拉布拉多犬的萌笑,不然就是在一頭老虎的臉上看到你家裡那隻貓咪一抹神秘的笑容。人類的記憶中充滿著各種圖像,並不難就做到結合不同畫面的事情。但對於電腦來說,要做到這件事可就困難重重,一直要到出現 GANimal 才解決這個問題。
NVIDIA 的一組研究人員提出一項嶄新的人工智慧技術,讓電腦變得更聰明去看到一隻動物的照片,並且在其它動物的臉上重現這個動物表情和姿勢。這項成果有部分得益於生成對抗網路(GANs),這是一項新興的人工智慧技術,可以讓一個神經網路與另一個神經網路進行對抗。
你可以自己試用 GANimal 這個 app,輸入一張你家裡養的貓狗照片,就能看到牠們的表情和姿勢出現在從非洲野犬、埃及貓、西施犬、雪豹,再到懶熊等數十個不同的動物品種和物種上。
我用兒子養的混血雜種狗 Duke 的照片來測試,牠看起來有點像是金毛拉不拉多犬。在使用 GANimal app 後得到我最愛的結果,也就是一隻黑眼睛的山貓有著 Duke 憨厚的笑容。
這項技術也開啟了更廣泛的應用。或許日後電影導演可以錄下狗狗表演特技的畫面,並且用這項人工智慧技術把這些動作套用到較不易馴服的老虎身上。
NVIDIA 的研究人員利用 GANs 開創出一種人工智慧技術,只要輸入一張照片,便能將另一隻動物的表情及姿勢套用到家中寵物的照片上。
這支研究小組本周在首爾舉行之國際電腦視覺大會(ICCV)上發表的一篇報告中,介紹了這項研究成果。國際電腦視覺大會是電腦視覺領域三大會議之一。
在他們的報告中介紹了一項研究人員稱為 FUNIT(Few-shot, UNsupervised Image-to-image Translation,少樣本無監督影像到影像轉換)演算法,「這種演算法適用於過去沒見過的目標類別,測試時僅使用一些範例影像指定此目標類別。」
「大多數以生成對抗神經網路為基底的影像轉換神經網路,都是被訓練來解決單一任務,像是把馬變成斑馬。」NVIDIA FUNIT 演算法開發團隊的電腦視覺首席研究員劉洺堉說。
「在這種情況下,我們訓練一個神經網路來共同解決多個轉換任務,其中每項任務是利用部分目標動物的範例影像,把一個隨機來源的動物影像轉換為一個隨機目標動物。在練習解決不同的轉換任務後,最終這個神經網路學會將已知的動物轉換成從未見過的動物。」劉洺堉說。
在進行這項研究工作之前,必須使用目標動物的許多影像來訓練影像轉換神經網路模型。現在只要隨便一張圖片就能做到,有部分原因要歸功於訓練功能內擁有多項影像轉換任務,研究小組將這些任務加入到 GAN 的生成對抗過程中。
這項研究成果是劉洺堉首要目標的下一步,他的目標是找到方法,把如同人類一般的想像力用程式碼寫入神經網路。劉洺堉說:「這就是我們不斷解決各項新的問題,而在科技與社會方面取得進步的方式。」
NVIDIA 旗下兩百多名研究員,有七名加入這個團隊,他們希望擴大全新 FUNIT 工具的規模,納入更多種類的高解析度影像。他們已經使用花朵和食物的圖片進行測試。
劉洺堉在生成對抗網路方面的研究,今年初因為 GauGAN 而受到世人注目。GauGAN 是一項可以把塗鴉變成逼真藝術品的人工智慧工具。
已經有不少人使用 GauGAN 這項工具創作出超過百萬個影像。請在 AI Playground 親自試用看看。
劉洺堉將在今年 ICCV 大會的三場演講及一場海報展示活動發表四篇報告,還將主持一場報告發表活動與出席一場教學活動,教學活動的主題是關於怎麼對 NVIDIA 最新 GPU 中的 Tensor Cores 來編寫程式碼。