要 2D 還是不要 2D:NVIDIA 研究人員透過人工智慧,製作出栩栩如生的影像

作者 Lauren Finkle

看著這個畫面時,請閉上左眼,接著睜開左眼和閉上右眼,此時你會注意到隨著使用不同的眼睛觀看,視野會因此而改變。原因在於我們在二維空間中觀看物體時,大腦會將視網膜上的影像組合起來,創造出具有深度的立體感。

機器學習模型也需要這種能力,這樣它們才能準確地理解影像資料。NVIDIA 的研究人員開發出一款稱為 DIB-R(differentiable interpolation-based renderer,可微分內插運算法渲染器)的渲染框架,可以從 2D 平面影像產生出 3D 立體物體影像。

這支研究團隊將在本周於溫哥華舉行的神經資訊處理系統大會(NeurIPS)年會上,向外界展示這款模型。

在舊有的電腦影像學中,製作流程是將 3D 立體模型渲染到 2D 螢幕上,不過把這個過程反過來執行,可以取得不同的資訊,像是一個可以從 2D 影像中推論出 3D 物體的模型,在物體追蹤方面可以取得更佳的結果。

NVIDIA 的研究團隊想要開發出一個架構,在有能力做到這一點的同時,又流暢地與機器學習技術進行整合。DIB-R 使用「編碼器-解碼器」架構產生真實感十足渲染畫面,「編碼器-解碼器」是一種可以將輸入內容轉換成特徵圖或向量的神經網路,用於預測影像的形狀、顏色、紋理及光線等特定資訊。

這款神經網路在機器人等領域,特別能發揮實力。自動操作機器人必須有能力感應與理解四周環境,方能安全有效地與環境進行互動,DIB-R 有可能改善這些深度感知能力。

使用單個 NVIDIA V100 GPU 來訓練模型的時間是兩天,要是未使用 NVIDIA 的 GPU,就得花上數週的時間。到時候 DIB-R 可以在不到100毫秒的時間內,從 2D 影像產生出 3D 物體。DIB-R 改變傳統表現 3D 形狀的多邊形球體範本,以配合在 2D 影像中描繪的真實物體形狀。

研究小組使用四張 2D 鳥類圖片(最左側)來測試 DIB-R 的表現。第一個實驗使用一張北美黃林鶯的圖片(左上),產生出一個 3D 物體(最上面兩行)。

NVIDIA 的研究團隊使用多個資料集來訓練這套神經網路,其中包括一組鳥類圖片。經過訓練後的 DIB-R 可以將一張鳥類的平面圖片,產生出具有適當形狀和紋理的 3D 鳥類影像。

DIB-R 渲染出的 3D 北美黃林鶯影像。

DIB-R 項目研究團隊成員 Jun Gao 表示:「這基本上是史上首次可以做到用任何 2D 影像來預測它的相關 3D 特性。」

DIB-R 可以在一秒鐘內將暴龍或渡渡鳥這些早已滅絕的動物,從 2D 圖片轉換成栩栩如生的 3D 影像。

使用機器學習框架 PyTorch 開發出的 DIB-R,是 NVIDIA 最新 3D 深度學習 PyTorch 函式庫 Kaolin 的一份子,這項函式庫可以加快 3D 深度學習的研究腳步。

這裡提供 NVIDIA 研究報告《Learning to Predict 3D Objects with an Interpolation-Based Renderer》完整內容。NVIDIA Research 團隊由全球兩百多名科學家組成,致力於研究人工智慧、電腦視覺、自動駕駛車、機器人與圖形等領域。