OpenAI 的先驅者表示強化學習「真正有助於」人工智慧代理對抗職業電玩選手

作者 Scott Martin

Ilya Sutskever 在 NVIDIA 矽谷園區舉行的 NTECH 工程師年會上,談到了日前舉辦之《Dota 2》的賽事結果。

快速、創意、聰明-出色的遊戲玩家身上流露出這些特質。總要有人教機器怎麼同樣具備這些特質,而這個人便是 Ilya Sutskever 及其在 OpenAI 的團隊。

OpenAI 共同創辦人暨研究部門總監 Sutskever,加上他在 Open AI 的團隊所開發出的人工智慧機器人,聰明到足以跟世上部分最優秀的人類電玩玩家一較高下。

八月時《Dota 2》多名全球頂尖職業玩家打敗了一支由五個神經網路組成的 OpenAI Five 隊。《Dota 2》是一款廣受歡迎的多人線上戰鬥競技場遊戲。

OpenAI Five 隊以職業水準之姿,參加開發商 Valve 公司在溫哥華舉行,幾乎毫無限制的《Dota 2》國際賽事,可謂一大躍進。全球有許多職業玩家參與這一系列的電競賽事,爭奪數千萬美元的獎金。

原因在於《Dota 2》是一款極為複雜的遊戲。在尋求獲勝的過程中,玩家要運用大量的戰術、策略和互動。每場賽事進行45分鐘,只能看到部分遊戲場面,得用到短期戰術和長期戰略。「職業玩家連命都丟進去了,玩起來一點也不輕鬆。」Sutskever 說。

Sutskever 週四在 NVIDIA 矽谷園區舉行的 NTECH 工程師年會上發表演講。這項內部活動吸引了數百名工程師參加,其中有不少人也是熱情的電玩迷,還有數百人在線上進行觀看。

《Dota 2》提高了人工智慧參與電玩的水準

OpenAI Five 隊參加《Dota 2》一事,象徵人類與人工智慧之間的戰事上升到新的境界。相較之下,同樣也是熱門人工智慧賽事的象棋和圍棋,平均動作數量分別是35和250。而在規則極為複雜的《Dota 2》裡,每次移動約有17萬個動作,每場比賽要移動兩萬次。

他說人工智慧在面對極為複雜的《Dota 2》,使用比應付其它遊戲更貼近實際情況的手法。「我們是怎麼做到的?我們大規模使用 RL(強化學習)。」Sutskever 對聽眾們這麼說。

強化學習對於人類和機器來說皆有其重要性。我們在一場賽事裡因為一個動作而獲得一個獎勵積分,或是被炸得粉身碎骨,這些時刻都會是進行強化學習的機會,它會刻在記憶體裡,並且用於下一回合的賽事。

在人工智慧領域扮演重要角色的強化學習,是一種十分自然訓練神經網路以達到目標的方式,對於打造智慧系統來說非常重要。

OpenAI Five 隊大規模使用可靠的強化學習演算法Proximal Policy Optimization,近端政策優化),在 Google 雲平台上運行了超過一千個 NVIDIA Tesla P100 GPU,創下驚人的成果。

NVIDIA 很早便一直支持著 OpenAI,執行長黃仁勳更親自將首具 DGX-1 人工智慧超級電腦送給 OpenAI 的研究團隊  。

GPU 過去挑戰過的難題

Sutskever 對於將 GPU 用於解決人工智慧最大難題的方面,一點也不陌生。他跟 Alex Krizhevsky 及顧問 Geoffrey Hinton 組成多倫多大學的三人研究團隊,率先採用 GPU 發展出卷積神經網路,誕生出著名的 ImageNet 競賽。

隨著現代人工智慧浪潮蓬勃發展,人們會永遠記住他們將錯誤率幾乎減少一半的優異表現。

他們誕生出的 AlexNet 模型,是無數深度學習模型的基礎。黃仁勳在2018年的 GTC 大會上表示 AlexNet 模型的影響力無遠弗屆,創造上數千個人工智慧系統。黃仁勳說:「神經網路的發展速度非常驚人。」

Sutskever 說人工智慧呈現飛躍式的發展,跟提高處理能力有著密切關係。「從最早的 AlexNet 到 AlphaGo Zero,五年間的計算量成長了三十萬倍,是非常大的增長幅度。」

OpenAI「射月」的企圖心

成立於2015年的非營利組織 OpenAI,旨在開發與散布造福人類的人工智慧技術。創始成員包括 Tesla 執行長 Elon Musk、Y Combinator 總裁 Sam Altman 及科技界的其他知名人士,共同提出十億美元的資金來實踐這個使命。

OpenAI 的研究人員也在 Dactyl 這個想要讓機器手更靈活的案子上頗有斬獲。研究團隊在網域隨機化這個古老概念方面,取得了顯著成果,已經能夠訓練機器手在模擬環境裡操縱物體,然後將這些知識搬到現實環境的操縱上。這一點很重要,機器人只能靠著模擬來取得足夠的訓練經驗。「這個想法的成效極佳。」Sutskever 說。

Sutskever 熱衷於將強化學習和網路隨機化等常見的人工智慧概念推向新的高度。他在 NTECH 年會的廣泛討論活動裡,讚揚了 Arthur C. Clarke 在著作《Profiles of the Future》裡提出的結論,該書表示過去人們也曾對飛機和太空旅行等偉大發明抱持著懷疑的態度。

他說最早各種聲音懷疑美國無力持續建造重達200噸的火箭,並且將它送上太空。「所以俄羅斯人接手製造了一具200噸重的火箭。」他打趣說,聽眾們哄堂大笑。