注意路況：自動駕駛車如何得知它們看到了什麼

對於未受過訓練的人來說，它們是一堆各種顏色的邊框、方塊和數字，而對於訓練有素的觀察者而言，它們是從魚眼鏡頭、光達和其它感應器讀取到的數據，而自動駕駛車就穿梭在這個複雜環境的各種細節之間。

你在今年拉斯維加斯舉行的美國消費電子展，會見到無數各大車廠和研究人員所提出的展演內容，他們從新一代自動駕駛系統的觀點展示車輛未來發展走勢。

我們透過全球最強大的車用人工智慧車用引擎 NVIDIA DRIVE PX 2，帶領車廠及研究機構進行這項研發工作。DriveWorks 軟體加上 DRIVE PX 2，讓車廠的研發人員能將深度學習的實力用在新一代的自動駕駛車上。

這些新系統所展現出的技術令人驚嘆不已 – 每秒達到驚人的24 兆次深度學習運算速度，還是得說明一下它們所具備的本事。

以下簡短介紹你在觀看自動駕駛展演內容時，會看到和不會看到的內容。

你會看到的內容

你將在會場裡見到兩類辨識能力：

語義分割 — 這項能力可標示出屬於特定物件類別的畫素（構成電腦影像的小點）。在下圖裡可以見到道路是藍色的，人是橘色的，車輛是紅色的，要是電腦區別影像內物體的精細程度能達到這般水準，我們就有信心自動駕駛系統能夠安全地進行導航。

物件偵測 — 這項能力可以方塊標示出物體位置，在多支影片裡展示我們同時偵測多個物件類別的實力。在下例裡，我們設計了一款能辨識人和車輛的偵測器，透過邊框會比分割法更易於表達物體位置。

你不會看到的內容

在眾多展示自動駕駛系統所見到之路況畫面的內容時，你會在螢幕上注意到語義分割和物體偵測這兩項技術。

但是你不會看到在推動這一切的重要幕後推手：深度學習技術。深度學習技術讓我們做到人們無法達成的事情，開發能辨識出路上每個物件類別的軟體並不具有實用性，路上有太多東西了。

這套解決方案就是教導機器自我學習。深度學習技術讓我們能設定一個困難的目標，要是使用對的演算法規劃出正確的方程式，神經網路就能找出方法來解決複雜事物。

我們利用 NVIDIA GPU 強大的運算能力來訓練這些神經網路，GPU 能一次以平行方式處理很多工作，最適合用於深度學習。

我們將以日前發表的 GoogLeNet 及 VGG 等先進深度學習網路為基礎，使用單擊偵測和分割架構，而單擊代表網路會取得完整影像，並且吐出偵測或分割畫素標示內容。

此舉使得車廠能使用真實駕駛情境影片，快速訓練系統辨識各種車況裡的物件，丟入深度學習系統的資料愈多，系統就會變得更聰明；還能透過 KITTI 基準套件等獨立研究單位的實際影像辨識基準，對辨識結果進行同儕比較。

如何判斷眼中的內容

下次在觀看展演內容時，請提出三個問題。如何訓練這些系統理解從未見過的情況？是即時運作的嗎？這些結果跟電腦科學家用以衡量電腦視覺系統準確性的基準相比，它們的表現又是如何？