Eureka! NVIDIA 研究突破為機器人學習帶來新氣象

人工智慧代理人使用大型語言模型自動產生獎勵演算法來訓練機器人完成複雜的任務

2023 年 10 月 23 日作者 Angie Lee

NVIDIA Research 開發的一款新型 AI 代理可以教授機器人複雜的技能，它首次訓練機械手執行快速轉筆技巧，而且效果與人類一樣出色。

上面影片中展示令人驚嘆的魔術是機器人透過 Eureka 學會熟練完成的近 30 項任務之一，Eureka 可以自動編寫獎勵演算法來訓練機器人。

Eureka 也教機器人打開抽屜和櫃子、拋球和接球、操作剪刀等任務。

NVIDIA Research 今天發布了Eureka 人工智慧演算法庫，因此人們可以使用 NVIDIA Isaac Gym（一個用於強化學習研究的實體模擬參考應用程式）進行實驗。Isaac Gym 基於 NVIDIA Omniverse 構建，Omniverse 是一個基於 OpenUSD 框架構建 3D 工具和應用程式的開發平台。Eureka 本身由 GPT-4 大型語言模型驅動。

NVIDIA 人工智慧研究資深總監、Eureka 報告的作者 Anima Anandkumar 表示：「強化學習在過去十年中取得了令人印象深刻的勝利，但仍然存在許多挑戰，例如獎勵設計，這仍然是一個反覆試驗的過程。Eureka 是開發新演算法的第一步，該演算法整合生成和強化學習方法來解決困難任務。」

人工智慧訓練機器人

根據報告，Eureka 生成的獎勵程式（可以讓機器人進行試誤學習）在超過 80% 的任務上優於專家編寫的獎勵程式。這使得機器人的平均性能提高了 50% 以上。

Eureka 教機器手臂打開抽屜

人工智慧代理利用 GPT-4 大型語言模型和生成式人工智慧來編寫軟體程式碼，獎勵機器人進行強化學習。它不需要特定任務的提示或預先定義的獎勵模板，並且可以輕鬆地結合人類回饋來修改其獎勵，以獲得更準確地符合開發人員願景的結果。

使用 Isaac Gym 中的 GPU 加速模擬，Eureka 可以快速評估大量獎勵候選項目的品質，以實現更有效率的訓練。

然後，Eureka 根據訓練結果建立關鍵統計資料的摘要，並指示大型語言模型改進其獎勵功能的產生。透過這種方式，人工智慧可以自我改善，並教導各種機器人，包含四足機器人、雙足機器人、四旋翼機器人、靈巧手、協作機器人手臂等，來完成各種任務。

研究報告基於開源靈活性基準，對 20 個 Eureka 訓練的任務進行了深入評估，這些基準要求機器人手展示各種複雜的操作技能。

使用 NVIDIA Omniverse 產生的視覺化效果顯示了 9 個 Isaac Gym 環境的結果。

人型機器人透過 Eureka 學習跑步步態

該計畫的貢獻者之一、NVIDIA 資深研究科學家 Jim Fan 表示：「Eureka 是大型語言模型和 NVIDIA GPU 加速模擬技術的獨特組合，我們相信 Eureka 將實現靈巧的機器人控制，並為藝術家提供一種製作物理逼真動畫的新方法。」

這項突破性的工作必將讓開發者的頭腦充滿無限可能，並與像是最近 NVIDIA 研究進展的Voyager 相結合，這是一種使用 GPT-4 構建的 AI 代理，可以自主玩 Minecraft。

NVIDIA 研究中心由全球數百名科學家和工程師組成，與團隊專注於人工智慧、電腦圖形、電腦視覺、自動駕駛汽車和機器人等主題。

了解更多 Eureka 和 NVIDIA Research。