機器人權威指出強化學習是打造冠軍足球機器人的關鍵

先別擔心機器人可能偷走你的工作。Peter Stone正設法做出能偷走羅納度飯碗的機器人，可以確定的是Stone他自己短時間內應該不會失業。

大家老是說「好的問題激發出好的科學」。Stone和其他電腦科學家正努力打造出新型態機器人，希望在2050年之前能夠匹敵－甚至踢贏－世上頂尖真人足球員組成的球隊。

雖然Stone的機器人目前還無法擊敗真人球員，但它們確實是當今世上最好的機器人足球員，背後要感謝他的團隊，率先將強化學習－一種機器學習技術－融入到機器人之中。

Stone指出，科技是達成AI長遠目標的關鍵，有助於創造出 “發展健全、完全自主、能在真實世界運行”的機器人。

本週三在我們矽谷校區舉行的NTECH內部工程會議上，擔任德州大學奧斯汀分校機器人開發計畫主任的Stone向在場數百位工程師－還有網路上數百聽眾－發表演說。

Stone在AI感興趣的研究領域包含機器學習－特別是強化學習、多重智慧型代理系統、機器人、以及電子商務。此外他還合夥創立Cogitai，這家新創公司致力開發接續學習(continual learning)技術。

但他最熱愛的還是足球機器人，這也是當今全世界AI與機器人研究領域的聖杯。

Stone和他的團隊在當今機器人足壇長領風騷，接連拿下2011、2012、2014、2015、2016、以及2017年的RoboCup年度球賽冠軍。Stone的成功關鍵在於：在強化學習這個機器學習領域不斷有所進展。

現代大多數機器學習都採取所謂監督式學習的方法。在監督式學習過程中，我們會用真實世界影像的標記範例來訓練類神經網路，這些都是它們應該要學會看懂的影像－包括像手寫數字－如果它錯了就會立收到反饋。

然而問題在於:人類很少會這樣學習; 而且這種學習法也不能幫助機器人精通像踢足球這樣的複雜任務。

Stone指出，相較之下，強化學習演算法必須面對延後回饋的情況－系統必須先做一長串的決策後才能由結果判斷自己是否做對。就像努力贏下一盤棋或把車開到目的地，這類工作都必須做出一長串的決策。

更重要的是，資料並不是事先就匯入學習演算法。剛開始它會從本身選擇做的動作來產生自己的經驗，在努力達成某個目標時必須先做出一長串的決策。

雖然過去二十年這種方法獲得出許多突破進展－從最初能在雙陸棋上打敗人類的電腦，一路發展到去年谷歌的AI系統擊敗頂尖圍棋高手－但若想要教會機器人如何精通足球，所面臨的挑戰就變得複雜許多。

這些機器人不僅必須學會像是行走、帶球、射門等動作，還得針對環境進行調適，以便相互合作對抗其他隊伍。

關鍵在於：Stone的團隊正訓練機器讓它們層疊(layer)多種不同技能－如此即可一次精通一連串的技能，相當類似人們的學習方式－而不是一次單獨學習一種技能。

如果機器人走出工廠，開始廣泛運用在住家與辦公室，那麼這樣的技術就會變得極為關鍵。

Stone指出，要把這些機器人連結成一個群體，問題的關鍵在於這種具智能的個體在身旁有隊友以及/或對手的情況下，面對瞬息萬變的情境時，能達到多高程度的自主學習能力。

要針對這些艱鉅難題尋找答案，意謂著在未來數十年，各類人工智慧的科技將對廣大領域的行業產生日漸深遠的影響，包括從運輸一直涵蓋到醫療。

有些人抱持正面態度看待，其他人可能會要我們建議有創意的途徑幫他們進行調適。Stone表示，我們不認為所有工作都會消失，但我們相信社會的貧富差距可能會更加擴大。

當然現在還不到該擔心的時候，如果你是世界級足球員，更可以暫時高枕無憂。因為目前即使由中年科學家組成一支足球隊，也能在真實足球場上踢贏世上最好的機器人球隊。