深度學習技術如何按照藝術大師的風格來繪製影片

作者 Crowd Favorite

多虧有了 Instagram 與 Snapchat,很簡單就能在照片和影片上加入濾鏡效果,但是要是能按照梵谷「星夜」或孟克「吶喊」的風格來重新繪製手機上的影片,那又會是什麼情況?

一支來自德國弗萊堡大學的研究團隊,採用稱為深度學習的人工智慧技術,朝著這個目標邁出了一大步。

研究團隊開發出一項方法,利用深度神經網路來從一項畫作來源擷取特定的藝術風格,接著將這些資訊與另一支影片進行合併。NVIDIA GPU 讓他們能完成這項需要龐大運算能力的工作,產生出令人驚訝的結果。

有長期記憶的演算法

過去的研究工作成功採用深度學習技術,將一幀影像的藝術風格搬到另一幀影像上。早期的研究工作發現深度神經網路在處理影像時,其神經活動會對筆觸、色彩和其它抽象細節等影像的風格資訊進行編碼,再將此風格套用到神經網路視為第二幀影像的內容上。

不過在影片裡有大量動態畫面,將靜態影像的畫作風格套用到影片的每個影格上並非那麼簡單。

弗萊堡大學博士後研究員 Alexey Dosovitskiy 說:「倘若只是在每個影格上套用演算法,影片的風格會不一致,會出現閃爍的畫面。我們則是提出更多的限制項,讓影片畫面看起來更一致。」

Dosovitskiy 與其他研究員控制各影格間的變化程度,以達到影片出現一致畫面風格的目標,而此舉出現了三大難題:

  • 畫面裡的角色在場景間移動時,應有一致的風格
  • 背景等靜態元素應在各影格間維持一致的風格
  • 角色離開視野後,背景應回到角色移動的樣子

研究團隊的演算法加入限制項來解決連續影格風格差異太大的問題,還使用長期偶發事件技術來輔助連續性,該區域再次出現時,便會複製稍早從多個影格裡同一場景同一區域的影像構成內容。

巧妙限制深度學習演算法,以在動態影片裡產生出更一致的風格。
巧妙限制深度學習演算法,以在動態影片裡產生出更一致的風格。

研究團隊使用 NVIDIA GPU,以求落實這項複雜的工作。在 GeForce GTX TITAN X GPU 的輔助下,將畫作風格搬到高畫質影片的一個影格上耗時8到10分鐘,較使用多核心 CPU 的速度快上20倍。

「這是一項極為耗時的工作,從這裡就能看出 GPU 的重要性。」Dosovitskiy 說。

研究團隊還使用對於記憶體要求較少的 cuDNN 深度學習軟體,來執行將藝術風格搬到高畫質影片上的工作。多 GPU 系統雖能加快處理速度,目前仍達不到即時搬動的目標。

到目前為止研究團隊已在直播和動態影片上套用過這項演算法,兩者皆呈現出優秀的渲染結果,不過 Dosovitskiy 覺得觀看者對於直播畫面會要求更多。

「人們對於畫面閃動非常敏感,在看影片之際,就算閃動的程度極小,還是能感覺到。」他說。

在 Dosovitskiy 研究團隊的報告中有更多相關資訊。