機器人怎麼進行學習：柏克萊大學的 Sergey Levine 期望機器人好好享受童年

加州大學柏克萊分校的研究人員發現人工智慧不僅是推動開發出更先進機器人的關鍵，或許還是推動發展出更先進人工智慧技術的關鍵。

想像一下機器人用力抓住門把，或者高高拿起塑膠香蕉和放入狗飼料盆裡，或是努力沿著金屬容器推動樂高積木。

來到 Sergey Levine 教授在加州大學柏克萊分校的實驗室，說不定會看到一些令人費解的畫面。

「我們想把機器人放在一個它們可以探索玩耍的環境裡。」在加州大學柏克萊分校人工智慧研究實驗室，擔任機器人人工智慧與學習實驗室負責人的 Levine 助理教授說，這個實驗室也是 NVIDIA AI Labs 計畫的一員。

遊樂場：Sergey Levine 教授的機器人實驗室，
日後或許會誕生出從遊戲中進行學習的機器人。

機器人為什麼要玩遊戲？因為生物透過戳、推等動作，加上觀察發生了什麼事來瞭解自己所處的實體環境，逐漸培養出智慧。

「唯有在人類身上，才能找到能證明存在著智慧的證據，而人類存在於實體世界裡，體現出人類具有智慧這一點。其實我們知道各種具有智慧的生物，都有體現出這一點，或許牠們不見得有表現出來，只是我們不知道罷了。」Levine 這麼解釋道。

他表示，所以更廣泛來說，「我覺得機器人就是讓人能一窺人工智慧的鏡頭。」

從下到上

Levine 說多年來在機器人領域獲得的最大心得之一，便是確認了「莫拉維克的悖論」（Moravec’s Paradox）。

卡內基美隆大學機器人學教授 Hans Moravec 在其於1988年出版的《Mind Children: The Future of Robot and Human Intelligence》一書中，提到人工智慧的二分法。

可以透過教導的方式教機器做好「人類覺得很難的事情」，像是精通下西洋棋的技巧，然而基本運動技能這種「人類覺得很簡單的事情」，機器的表現倒是不好。

「要機器下棋，其實很簡單。可是要機器拿起棋子，反而是件很難的事。」Levine 說。

Moravec 將這種二分法視為打造思考機器的「巨大線索」。他主張按照達爾文進化論的方式來建立智慧。也就是說，從下而上逐步發展基本的感覺運動系統，後來再發展到更高的推理能力。

沒有貓

跟深度學習類似的是，像是使用卷積神經網路（CNNs）而在影像辨識方面達到突破性的發展，可以組合自動學習資料內最基本特徵的神經網路，即「邊緣檢測算子」（edge detector）和「角點檢測算子」（corner detector）來表示層次結構。

「我們看到的是能找出這些低級別特徵的方法，也能找出更高級別的特徵。」Levine 說。

有人要喝咖啡嗎？教導機器學習將會是打
造出跟人類共同生活工作之機器人的關鍵。

然而跟網路上成堆的貓咪圖片不同，沒有現成的資料可供機器人學習。所以 Levine 的實驗室將重點放在讓機器探索環境「在幾週的時間裡，自動把東西推來推去、操縱物體，試著瞭解四周環境。」

Levine 使用包括 CNN 在內的多種機器學習技術來訓練機器人，還特別加入了強化學習技術，從當前狀態推論目標狀態以規畫前往目的地的路線。測試時機器人使用這套方法來執行那些任務的新例子。

在訓練階段裡，機器人在「無人監督」的情況下操弄著物體。人類並未設計機器人執行任務時應做出的精確動作，甚至也沒有訂定明確目標。

神經網路找出該完成哪些目標，接著找出包括附屬肢體運動角度在內的規則，以達到預定目標。

「學著怎麼學習」

訓練活動使用位於異地的 NVIDIA GPU 叢集，進行測試時每個機器人上都裝有一個 GPU，用於運行已學到的規則。在部分企圖心更大的測試活動裡，像是觀看人類演示影片來學習新的規則，每具機器人上則是裝有更強大的 NVIDIA DGX-1。

Levine 表示 GPU 的運算能力為人工智慧帶來了兩項優點。一是加快訓練速度，「讓我們能縮短進行科學研究工作的時間」，二是在推論過程中，GPU 的強大能力可以做到即時回應，這對機器人來說是「非常重要的」。

「等到機器人實際上身處實體環境裡，如果它在做著一些動態活動，像是在一扇關閉的門旁邊飛行」，以無人機為例，「它得搞清楚門是關著的，才不會撞上它。」

https://soundcloud.com/theaipodcast/ai-podcast-sergey-levine

Levine 及其研究團隊在強化學習方面的研究，已經進入更為複雜的程度。他們教導機器人在測試時執行一件任務，而這件任務跟在訓練時學到的內容相似。他們更大的目標是讓機器人在測試時學習解決問題的新規則，並且將新規則用在新的任務上。Levine 說機器人「學著怎麼學習」。

後者稱為「元學習」（meta-learning），是 Levine 實驗室日益關注的焦點。在近期發表的《One-shot Hierarchical Imitation Learning of Compound Visuomotor Tasks》這篇報告裡，機器人先是觀察人類展示一種簡單的「原始」任務，例如將物體放入碗中，機器人再制定模仿該動作的規則。

測試時則是對機器人展示一項「綜合」任務，像是把物體放入碗中，再沿著桌子移動碗。機器人利用先前在簡單任務裡學到的經驗來構成規則的「順序」，以便連續執行動作。

柏克萊人工智慧研究實驗室是 NVIDIA AI Labs 計畫的一員。