MagLev 如何在短時間內讓自動駕駛車達到超越人類的安全水準

作者 Clement Farabet

自動駕駛技術能提高用路人的安全,將帶來不少好處,然而複雜的行車環境又讓它難以運用人工智慧。

大多數人在平常開車時,都沒有想到其實行車環境的各種狀況和事件都是相當駭人的。

NVIDIA 週四在加州聖荷西舉行的 Facebook @Scale Conference 大會上宣布推出 Project MagLev,這是一項內部開發的人工智慧訓練與基礎設施,在設計方面考慮到安全性和擴充性,以協助製造商可以打造出能處理這些情況的自動駕駛車。

我們開發出用於自動駕駛技術的人工智慧,同時搭配深度神經網路以處理各種現實環境的狀況,像是其它車輛和行人、一天中不同時間的光線、雨夾雪的天氣、眩光、凍雨等。

想要執行正確的演算法來支持這種人工智慧,得搭配大量的研發活動。最頭痛的部分之一便是驗證深度神經網路在各種條件下的正確性。只做一次是不夠的,必須再三進行,或者是「大規模」地進行,以滿足行車安全方面的嚴格要求。

在進行這一類的綜合訓練之際,要求深度神經網路在零出錯的情況下運行上百萬英里的真實行車資料,而那只是到達媲美人類表現的水準。裝有光達和雷達感應器,以及整整十二具攝影機的平台,還有一整套數百萬英里的訓練資料,相當於幾百 PB 的資料量。

這麼多的資料只是為了確保自動駕駛車達到等同人類駕駛員的能力,自動駕駛系統的表現必須超過人類駕駛員,才能真正達到安全行駛的目標。

MagLev:帶動技術向前發展

NVIDIA 投入大量人力、時間和物力來開發安全自動駕駛所需的人工智慧技術,涵蓋多年來數百名工程師和人工智慧開發人員的心血,建構出龐大的軟硬體基礎架構。

正如「MagLev」這個名稱所指的高速磁浮列車,成立 Project MagLev 的目的是為了用前所未有的速度推動技術向前發展。我們開發這個案子,以支援處理訓練及驗證產業級人工智慧系統所需的各種資料,包括測試達到 PB 級規模的資料量、高處理量資料管理和標籤、採用人工智慧技術的資料選擇以打造正確的資料集、安全可追溯性,以及將端到端的工作流程進行自動化。

解決瓶頸難題

我們設計 MagLev,以求解開端到端產業級人工智慧開發工作流程裡的瓶頸難題。

我們對自動駕駛車部署的每個新模型版本,都要收集數百 PB 的資料量、建立數百萬個帶有標籤的框架和幾十個版本的資料集,還要進行數百次的實驗、每次花上好幾天的時間進行訓練。MagLev 透過自動化的方式來提高執行這些作業的效率,它會儲存所有收集到的資訊,利用它不斷增長的知識庫來更快串連各項新的資料,還在已完成的模型和來源資料間提供完整的可追溯性。

我們按照擴充性和靈活性來打造 MagLev 的每個組件,像是執行超參數調校的基礎架構,這對探索更多模型結構和訓練技術以找出最佳模型來說非常重要。MagLev 會建議按照多種探索策略來進行實驗,還會利用過去的實驗結果。

根據知識庫裡相對應的超參數數值來追蹤探索作業所產生,包括模型和指標在內的各種資訊,如此一來便可以輕鬆運用自動化或互動式的方式來進行分析。

MagLev 的另一個重點為它能以編寫程式碼的方式取得端到端的工作流程,這包括預先處理資料、挑選、訓練模型、測試和修剪。程序化的工作流程讓科學家和研究人員無需一直進行監控,還使得生產工程師能將模型無縫部署到車輛上。可以使用機器學習演算法開發人員提出的最新資料集、功能和超參數,定期執行這些作業。

研究團隊記錄各模型的準確性和效能,便能不斷改善生產堆疊。要是生產模型中出現退化情況,生產工程師就可以追蹤最新的功能模型、它的超參數和使用的資料集。


人工智慧訓練與驗證需要能大規模進行推論作業。

發展自動駕駛車的另一項難題就是建立正確的訓練資料集,以便我們取得各種可能的情況供人工智慧系統進行操作。主動學習是其中一種特別有效的辦法,使用當前最佳的人工智慧模型對新收集到的資料進行分類,並且一一列出這些資料的表現。

我們再使用這些資訊對分類錯誤的資料加上標記,避免日後浪費時間來處理這些錯誤。主動學習和類似方法能有效在更短時間內建立更高品質的訓練資料集,只是它們需要能進行大規模的推論作業。MagLev 照舊讓研究團隊能在該級別使用預先經過訓練的人工智慧模型。

用於多個產業的革命性推論平台

發展人工智慧不單是自動駕駛車的核心要素,還擴展到靠著推論進行自動化的各個產業。這要憑藉不斷推陳出新的努力,其中包括本週在 GTC Japan 大會宣布推出之 NVIDIA TensorRT 超大規模推論平台(Hyperscale Inference Platform)的多項創新舉動。

全新的 NVIDIA TensorRT 推論伺服器提出了一個容器化、已經可以用於生產環境的人工智慧推論伺服器,以供部署在資料中心。它將使用 GPU 伺服器的程度發揮到極致,支援各項頂級人工智慧框架,還以 Docker 和 Kubernetes 提供了擴充性指標。

NVIDIA 亦與 Kubeflow 合作,可以輕鬆地在 Kubernetes 叢集裡部署 GPU 加速推論。 NVIDIA TensorRT 推論伺服器搭配 Kubeflow,讓資料中心的生產環境能以重複且具擴充性的方式來使用人工智慧推論功能。

深入瞭解 NVIDIA 推論解決方案: