貓和狗的訓練資料從天而降:NVIDIA Research 單位也使用人工智慧將貓變成狗、獅子和老虎

作者 Jamie Beckett

事實證明,豹可以改變身上的斑點。

NVIDIA 研究團隊推出全新 GPU 加速深度學習技術,豹(或者至少牠的一張圖片)便能同時變成家貓、老虎甚至狗,這一招也能用在影片上。

將一個圖片或影片變成多個的能力,可以協助遊戲開發及電影製作團隊加快速度、減少開支及創造更豐富的體驗內容,還能在更便捷地情況下生出各種訓練資料,提高自動駕駛車處理多變路況的能力。

從一到多

研究團隊藉由這項發現,去年12月時在神經資訊處理系統大會(NIPS)對他們早期的影像轉換研究心得提出了看法。逐一執行在 NIPS 研究報告裡描述的方法,將一個影像或影片映射到另一個。

在今日發表的一篇論文裡介紹了「多模式」這項新技術,即同時將一個影像變成多個影像。

多模式影像轉換技術只是我們200人 NVIDIA Research 團隊突破性發展的最新例子,這些研究人員遍布全球11個地區,推動了機器學習、電腦視覺、自動駕駛車、機器人技術、圖形技術、電腦架構、編程系統與其他技術領域的發展疆界。

陽光普照的陰天

多模式影像轉換技術就跟 NIPS 研究一樣,依靠非監督式學習和生成對抗網路(GAN)這兩種深度學習技術,賦予機器更多的「想像力」,例如想像陽光明媚的街道在暴雨或冬季期間會是什麼樣子。

研究人員如今並非採用將夏季駕車的影片變成冬季駕車畫面的方法,而是建立多組冬季駕車的畫面,只是其中的雪量有所不同。這項技術適用於為一天裡的不同時段及其它天候條件生成畫面,像是在陰天創造出陽光普照的天空,或是將一片漆黑的深夜變成黎明、午後或黃昏,對於訓練可用於自動駕駛車的深度神經網路極具有價值。

在遊戲世界裡,多模式影像轉換技術可以讓工作室有更簡便的方式來建立新角色或新世界,藝術家可以丟掉冗長無趣的任務,轉而開發更豐富複雜的故事情節。

Multimodal Unsupervised Image-to-image Translation(MUNIT,多模式非監督影像對影像轉換)框架的運作方式是將影像內容與風格分隔開來,像是在一張貓的圖片裡,貓的姿勢是內容,品種是風格,姿勢是固定的。要是把家貓的圖片換成豹或狗,那麼動物的位置必須保持一致,可以變動的是品種或物種,例如混種短毛貓、豹子或牧羊犬。

沒有資料?沒問題

這項研究建立在擅於生成視覺資料的深度學習方法上。生成對抗網路使用兩套相互競爭的神經網路,一個用於生成影像,另一個用於評估生出的影像到底是真是假。資料量不足時,生成對抗網路特別有用。

通常影像轉換需要使用相對應影像的資料集,像是牧羊犬、拉布拉多犬或老虎在圖片裡的位置,跟原本圖片裡貓咪的位置一模一樣。雖不是不可能,但這種資料很難找到,而 MUNIT 的優點便是在於沒有這種資料也沒關係,依舊可以運作。

MUNIT 也可以方便地為自動駕駛車生出訓練資料,無需從同一個有利位置、採用相同視角來拍攝相同影片,所有迎面而來的車流和其他細節都位於同一位置。

GAN 也不再需要人們為每個影像或影片內容加上標籤,這是一項耗時費力的工作。

報告作者之一的 Ming-Yu Liu 說:「我的目​​標是讓機器具有跟人類一樣的想像力。一個人可以想像冬日景色,無論樹木是光禿禿的還是覆蓋著靄靄白雪。我希望開發出能做到這一點的人工智慧技術。」