NVIDIA 研究人員變身機器人 AI 訓練師,改善人機互動

作者 NVIDIA Developer

在倉庫與家庭場景中,為了進一步打造出能夠與人類進行安全,有效合作的機器人, NVIDIA 西雅圖 AI 機器人研究實驗室( Seattle AI Robotics Research Lab )的研究人員,開發出了一種讓機器人能夠與人們交遞物體的人機互動方法。

該系統目前還處於概念驗證階段。與以往方法相比,這種交遞方法更流暢,而且幫助倉庫機器人,甚至廚房助手機器人更好地進行人機互動。

解決這個問題的關鍵在於,需要開發一套感知系統來精確識別手和交遞物體的各種姿態。在交遞物體時,人們可能正在專注於其他事情,手和物體通常會相互遮擋。這個問題,研究團隊將該方法分成了多個階段。

首先,該團隊定義了一組抓取動作,這組動作描述了人手進行交遞時抓取物體的方式。

研究人員在其 Human Grasp Classification for Reactive Human-to-Robot Handovers 論文中解釋道:“當握住一個物體時,手的姿勢可分為打開手掌,捏住底部,捏住頂部,捏住側面或拿起。如果手中沒有任何物體,那麼可能是在等待機器人交遞物體或未發生這個動作。”

然後他們在點雲上訓練了一個深層神經網路,用於預測人類的抓取類別。研究人員使用 Microsoft Azure Kinect RGBD 攝影機建立了一個數據集,這組數據集包含了 8 個實驗對象的不同手形和手勢。

研究人員表示:“我們向實驗對象展示了一張緊握物體的圖片,然後記錄實驗對象執行相似動作時的姿勢,記錄時間為 20 至 60 秒,然後在整個圖像序列中標出相應的人類在記錄期間,實驗對象的身體和手可以移動到不同的位置,以使攝影機的透視角度。我們分別記錄了每名實驗對象的左手和右手,整個數據集包含 151,551 張圖像。”

5 種人類抓取類型與 2 種空手類型涵蓋了人們所習慣的各種物體抓取方式。研究人員將這些動作與機器人的各種典型抓取方向相關聯,大幅減少了交遞過程中人們的負擔(以坐標系統和黃色箭頭表示)。

在下一階段,研究人員根據人類的抓取動作調整了機器人的抓取方向。

鑑於 PointNet ++ 架構在許多機器人應用上都取得了極佳的效果(如無標記遠程操作系統和抓取生成等),因此要完成這項任務,研究人員使用該架構訓練人類抓取分類網路。

研究人員表示:“手的周圍分佈著點雲,該網路可以根據定義的抓取類別對手的動作進行分類。定義的抓取類別也可以被用來設計更多的機器人抓取動作。”

交遞框架概述。該框架採用以手部檢測為中心的點雲,然後使用基於 PointNet ++ 的模型,根據 7 種抓取類別對手的動作進行分類。這七種抓取類別涵蓋了人們所習慣的各種物體抓取方式。然後,該任務模型據此調整機器人抓取動作的設計。

在該步驟中,團隊為機器人設計了典型的抓取方向,減少了機器人抓住人手的可能性,使機器人與人手運動的軌跡儘可能地自然。

研究人員使用一個內建 CUDA 10.2 和 PyTorch 框架的 NVIDIA TITAN X GPU 來訓練,並通過 1 個 NVIDIA RTX 2080 Ti GPU 來完成測試。

研究人員總結道:“與兩種基礎方法相比,這種方法能夠不斷提高抓取的成功率,縮短總執行時間和試驗時間。這證明了該方法的有效性和可靠性。”


( a )人手抓取分類的準確性。( b )人類手部狀態分類和 PoseCNN 之間的物體遺漏檢出率比較。在很多情況下,手會遮擋物體,因此很難獲得準確的物體姿態估計值。

在未來的測試中,研究人員計劃訓練該系統掌握更多抓取類型,進一步增強他們的數據集。

參考文件 : Human Grasp Classification for Reactive Human-to-Robot Handovers