新突破!麻省理工學院最新影像識別模型可戲劇話地改善邊緣設備延遲

作者 NVIDIA Developer

為提高影像識別應用程式在 NVIDIA Jetson NanoJetson TX2 等邊緣設備上的速度,麻省理工學院( MIT )的研究人員開發了一種新型深度學習模型,該模型性能優於以往影像識別任務中最先進的模型。

該模型在美國能源部下所屬橡樹嶺國家實驗室的超級電腦 Summit 上進行訓練,使用了 1,536 個 NVIDIA V100 GPU , 並在第 1 版 第 2 版 Something-Something 影像數據集公開挑戰賽中蟬聯冠軍。

擬在韓國首爾舉行的國際電腦視覺會議(International Conference on Computer Vision)上發表的 研究論文 詳細介紹了該方法,該方法利用時間轉移模組( Temporal Shift Module )框架來實現 3D 卷積神經網路( CNN )的性能,但同時具有 2D 卷積神經網路的複雜性。

研究人員在論文中指出:“傳統 2D CNN 在運算上成本低,但無法捕獲時間關係。基於 3D CNN 的方法可以實現良好性能,但運算量龐大,因此部署成本高。在論文 中,我們提出兼具高效能又高效率,通用且有效的時間轉移模組( TSM )。”

該團隊認為,這種方法可以將模型縮小到 1/6 ,也就是將最先進模型中的 1.5 億個參數減少到 2500 萬個參數。

麻省理工學院( MIT )的助理教授,及該論文的合著者 Song Han 說 :“我們的目標是使任何通過低功耗設備工作的人都可以使用 AI 。要做到這一點,我們需要設計耗能更少的高效 AI 模型,這個模型可以在邊緣設備上平穩運行。”

在以上影片中,這項研究的主要作者 Ji Lin 展示了安裝在攝影機上的單個 NVIDIA Jetson Nano 如何能夠在僅 12.4 毫秒的延遲下立即對手勢進行分類。

研究小組在橡樹嶺國家實驗室借助 Summit 訓練這種演算法。在那裡, Lin 和他的團隊使用 NVIDIA V100 GPU 和 cuDNN 加速的 PyTorch 深度學習框架,僅在 14 分鐘內就訓練了他們的模型。

研究人員說:“大型 AI 訓練工作的運算要求每 3.5 個月翻一番。我們能否繼續突破技術極限,取決於超高效演算法與強大機器相匹配的戰略。”

研究人員還在 GitHub上發布了實現 PyTorch 的代碼。