深入像素等級的感知能力:人工智慧如何幫助自動駕駛車跳脫傳統方式去查看外界

作者 Crowd Favorite

全景分割深度神經網路比起單獨的邊界框,提供了更多的視覺感知細節。

編輯手札:這是 NVIDIA DRIVE Labs 系列的最新一篇文章,在這個系列中以工程設計為出發點,去探討每一項自動駕駛車領域所遇到的難題,以及 NVIDIA DRIVE 如何因應這些挑戰。在這裡還能看到我們所有其它汽車相關文章。

在自動駕駛車所看出去的世界中通常有著無數的邊界框,車輛、行人和停車標誌全都加上了紅色和綠色的長方形方框。

只是在現實環境裡,並非一切事物都包圍在方框中。

對於極為複雜的行車場景,像是用三角錐圍起的工地、路面上有著一張沙發椅或是其它道路障礙物,或者是一個行人在對搬家卡車伸手卸貨,車輛的感知軟體若能對四周環境有更深切的瞭解,必定能對自動駕駛的安全決策有莫大助益。

可以透過全景分割(panoptic segmentation)這種精準度達到像素等級的技術,對影像內容進行切割,以取得如此細膩的結果。

使用全景分割技術便能對影像精準進行解析,以取得其中的語義內容(哪個像素代表車、行人及可行駛空間)和實例內容(哪個像素代表同一輛車與不同一輛車的物體)。

規畫與控制模組可以利用感知系統的全景分割結果,取得更豐富的資訊,為自動駕駛車做出更好的決定。舉例來說,詳細的物體形狀和輪廓資訊有助於提高物體追蹤的程度,就能取得更精準的轉向和加速輸入內容。全景分割結果還能搭配密集(像素等級)的物體距離估算方法,以高解析度的方式估算場景深度。

單一深度神經網路的作法

NVIDIA 的作法是使用單一多工學習型深度神經網路,對攝影機影像進行深達像素等級的語義和實例分割,這麼做使我們能夠訓練出一個全景分割深度神經網路,可以整體而非分段地理解場景中的內容。

如此一來也能提高工作效率。在我們的嵌入式車載 NVIDIA DRIVE AGX 平台上,只要一套端對端深度神經網路,便能獲得這些豐富的感知資訊,每幀推論時間約為五毫秒,這比目前最先進的分割方法還要快上許多。

DRIVE AGX 可以同時即時運行全景分割深度神經網路,還有許多其它深度神經網路和感知功能,再加上定位、規畫、控制軟體。


嵌入式 AGX 平台上車載推論所產生出的全景分割卷積神經網路輸出內容。上圖:預測的物體和物體類別(藍色=汽車;綠色=可行駛空間;紅色=行人)。下圖:預測的物體類別實例與計算出的邊界框(用不同的顏色和實例 ID 顯示)。

在上圖中,深度神經網路可以將一個場景分割成多個物件類別,並且偵測這些物件類別的各種實例,像是下圖中所顯示的獨特顏色和數字。

合宜的訓練及感知

每幀畫面提供的豐富像素等級資訊,也減少了對訓練資料量的需求。具體來說,各訓練影像裡有著更多的像素,可以呈現更多有用資訊,深度神經網路便無需那麼多的訓練影像進行學習。

按照像素等級的偵測結果及後續處理要求,我們還能計算各物體偵測的邊界框。像素等級分割技術提供的各項感知優勢都需要加以處理,這便是我們發展出功能強大之 NVIDIA DRIVE AGX Xavier 的原因。

藉由像素等級的全景分割技術,自動駕駛車便能對現實環境中豐富的視覺內容有更深入的感知,以做出安全可靠的駕駛決策。