機器人權威指出強化學習是打造冠軍足球機器人的關鍵

作者 Brian Caulfield

先別擔心機器人可能偷走你的工作。Peter Stone正設法做出能偷走羅納度飯碗的機器人,可以確定的是Stone他自己短時間內應該不會失業。

大家老是說「好的問題激發出好的科學」。Stone和其他電腦科學家正努力打造出新型態機器人,希望在2050年之前能夠匹敵-甚至踢贏-世上頂尖真人足球員組成的球隊。

雖然Stone的機器人目前還無法擊敗真人球員,但它們確實是當今世上最好的機器人足球員,背後要感謝他的團隊,率先將強化學習-一種機器學習技術-融入到機器人之中。

發展健全、完全自主、能在真實世界運行的智慧代理系統

Stone指出,科技是達成AI長遠目標的關鍵,有助於創造出 “發展健全、完全自主、能在真實世界運行”的機器人。

本週三在我們矽谷校區舉行的NTECH內部工程會議上,擔任德州大學奧斯汀分校機器人開發計畫主任的Stone向在場數百位工程師-還有網路上數百聽眾-發表演說。

Stone在AI感興趣的研究領域包含機器學習-特別是強化學習、多重智慧型代理系統、機器人、以及電子商務。此外他還合夥創立Cogitai,這家新創公司致力開發接續學習(continual learning)技術。

但他最熱愛的還是足球機器人,這也是當今全世界AI與機器人研究領域的聖杯。

把足球場變成練兵操場

Stone和他的團隊在當今機器人足壇長領風騷,接連拿下2011、2012、2014、2015、2016、以及2017年的RoboCup年度球賽冠軍。Stone的成功關鍵在於:在強化學習這個機器學習領域不斷有所進展。

現代大多數機器學習都採取所謂監督式學習的方法。在監督式學習過程中,我們會用真實世界影像的標記範例來訓練類神經網路,這些都是它們應該要學會看懂的影像-包括像手寫數字-如果它錯了就會立收到反饋。

然而問題在於:人類很少會這樣學習; 而且這種學習法也不能幫助機器人精通像踢足球這樣的複雜任務。

強化學習與監督式學習之間的差異

Stone指出,相較之下,強化學習演算法必須面對延後回饋的情況-系統必須先做一長串的決策後才能由結果判斷自己是否做對。就像努力贏下一盤棋或把車開到目的地,這類工作都必須做出一長串的決策。

更重要的是,資料並不是事先就匯入學習演算法。剛開始它會從本身選擇做的動作來產生自己的經驗,在努力達成某個目標時必須先做出一長串的決策。

雖然過去二十年這種方法獲得出許多突破進展-從最初能在雙陸棋上打敗人類的電腦,一路發展到去年谷歌的AI系統擊敗頂尖圍棋高手-但若想要教會機器人如何精通足球,所面臨的挑戰就變得複雜許多。

這些機器人不僅必須學會像是行走、帶球、射門等動作,還得針對環境進行調適,以便相互合作對抗其他隊伍。

關鍵在於:Stone的團隊正訓練機器讓它們層疊(layer)多種不同技能-如此即可一次精通一連串的技能,相當類似人們的學習方式-而不是一次單獨學習一種技能。

真實世界的情境

如果機器人走出工廠,開始廣泛運用在住家與辦公室,那麼這樣的技術就會變得極為關鍵。

Stone指出,要把這些機器人連結成一個群體,問題的關鍵在於這種具智能的個體在身旁有隊友以及/或對手的情況下,面對瞬息萬變的情境時,能達到多高程度的自主學習能力。

要針對這些艱鉅難題尋找答案,意謂著在未來數十年,各類人工智慧的科技將對廣大領域的行業產生日漸深遠的影響,包括從運輸一直涵蓋到醫療。

有些人抱持正面態度看待,其他人可能會要我們建議有創意的途徑幫他們進行調適。Stone表示,我們不認為所有工作都會消失,但我們相信社會的貧富差距可能會更加擴大。

當然現在還不到該擔心的時候,如果你是世界級足球員,更可以暫時高枕無憂。因為目前即使由中年科學家組成一支足球隊,也能在真實足球場上踢贏世上最好的機器人球隊。