AI 網紅 Andrej Karpathy:為什麼 AlphaGo很難應用到圍棋以外的世界?
AI 網紅 Andrej Karpathy:為什麼 AlphaGo很難應用到圍棋以外的世界?新智元???2017-06-02???36氪評論AlphaGo 在AI算法方面並沒有根本性的突破,隻是狹義AI的一個例子,但卻象征著 Alphabet 的AI 能力:公司的人才數量/質量、掌握的計算資源,以及公司高層對AI的關註編者按:本文由新智元編譯 ,來源:medium.com,作者:Andrej Karpathy,編譯:劉小芹 弗格森;36氪經授權發佈。
Karpathy在文章中談到瞭AlphaGo技術中一些很酷的部分,以及,從圍棋的7大屬性出發,談到瞭AlphaGo常常被人忽視的一些局限性。
我最近有幸跟幾個人聊到瞭AlphaGo與柯潔等棋手的比賽。特別是,大多數的報道都是大眾科學+PR的混合體,所以,最常見的問題就變成瞭“AlphaGo的突破性表現在什麼地方?”“AI研究者如何看待AlphaGo的勝利”以及“ 勝利的意義在哪?”
我想,針對這些問題,我有一些自己的想法。
一些很酷的部分AlphaGo 是由一系列相對來說比較基礎(standard)的技術組成的:行為復制(對人類所展示的數據進行有監督式的學習),強化學習,價值函數和蒙特卡洛樹搜索(MCTS)。不過,這些“組件”的組合形式是極具創新性的。
具體說來,AlphaGo使用瞭一個SL(監督學習)策略,來把在自我對弈中變得越來越完美的強化學習策略激活。這也是隨後他們評估價值函數的來源,接著他們會把價值函數嵌入到蒙特卡洛樹搜索中(從某處程度上來說這很令人意外),蒙特卡洛樹搜索會使用(更爛!但是更多樣化)的監督學習策略來對rollouts進行抽樣。
此外,策略/價值網絡是一些深度神經網絡,所以,要讓所有的事情都正常工作,這意味著其本身也會面臨一些獨特的挑戰(例如,價值函數的訓練使用的是一種狡猾的方法,以預防過擬合)。在所有的這些方面,DeepMind都執行得非常好。他們曾說,在解決強化學習的難題上,AlphaGo本身並沒有使用任何具有基礎性的、算法的突破。
狹義AlphaGo縮小來看,總的來說AlphaGo 還隻是一個狹義的AI系統,會下圍棋,但是也僅此而已。DeepMind用來玩 ATARI 遊戲的智能體使用的並不是AlphaGo慣用的技術方法。神經圖靈機與AlphaGo沒有什麼關系。
谷歌搜索引擎也不會使用AlphaGo。所以,AlphaGo不會推廣到除圍棋以外的任何問題上。但是,研究AlphaGo的人和神經網絡技術可以擴展,它們比舊時代的AI 具有更高的效率,因為以前的AI,每一詞demo都需要儲備專門化的、具體的代碼。
我希望通過列舉圍棋的一些特殊屬性,來擴展AlphaGo的狹義意義。這能有利於我們瞭解AlphaGo可以或者不可以擴展到什麼地方。圍棋是:
完全確定性的。在圍棋的規則中,不存在任何不清晰的地方。如果對弈雙方采取的是相同的一系列動作,那麼,他們可以達到的狀態就通常就是確定的。
可以完全觀察的。每一個玩傢都擁有完全的信息,並且不存在隱藏的變量。例如,德州撲克就不符合這一屬性,因為你不能看到對手的牌。
行動空間是不連續的。有一些獨特的下法是可以施展。作為對比,在機器人身上,你可能會希望在每一個節點都需要連續具有連續性的控制。
能夠獲得一個完美的模擬器(遊戲本身),所以每一步能取得的效果都是可以精確預測的。這一前提是AlphaGo強烈依賴的,但是,這種情形在現實世界中是非常稀缺的。
每一盤棋都很短,隻有大約200手。相對於強化學習的階段,這是一段相當短的時間。因為在自我對弈階段,每一盤棋可能包含的是上萬或者更多手。
評估是清晰、快速的,允許大量的試錯。換句話說,智能體能數百油煙靜電機出租萬次的體驗勝利和失敗,這能讓它們進行學習,雖然緩慢但是很確定,正如深度神經網絡中常見的優化那樣。
有大量的人類棋譜數油煙處理機出租據,所以AlphaGo不需要從頭開始進行學習。
舉個例子:AlphaGo應用在機器人上?以上列舉瞭圍棋的一些魅力,下面我們再來看機器人問題,以及我們可以如何將AlphaGo 應用到機器人中,比如說 Amazon 的機器人揀選挑戰賽(Picking Challenge)。這個問題隻是想想就有點滑稽。
首先,你的動作(高維度,連續動作)由機器人的電機笨拙/吵鬧地執行(違反瞭1和3)。
機器人可能必須要環顧四周以便找到需要移動的物品,因此它並不能總是感知到所有相關信息,有時候它隻是根據需要收集信息(違反瞭2)。
我們可能有一個物理模擬器,但這些模擬器是不完美的(尤其是模擬接觸壓力);這就帶來瞭一些挑戰(違反瞭4)。
取決於你的行動空間的抽象程度(扭矩- 夾子的位置),一次成功可能要遠多於200個動作(也就是說,第5點取決於設置)。更長的情節增加瞭信用分配的問題,這對學習算法在任何結果的行動中分配責任來說很困難。
由於我們是在現實世界中操作,機器人練習數百萬次某一動作(成功或失敗)會變得更加困難。一種解決方法是並行化機器人,但會相當昂貴。此外,機器人的失敗可能還包括機器人本身的損壞。另一種方法是使用模擬器,然後轉移到現實世界中,但在不同領域的轉移中又會帶來新的挑戰。(即違反瞭6)
最後,很少有數百萬的人類演示數據(違反瞭7)。
簡言之,基本上圍棋滿足的每一個假設,以及AlphaGo有優勢的地方都被違反瞭,每一個成功的方法看起來都完全不一樣瞭。更一般地說,上文的圍棋的一些屬性對當前的算法(例如1,2,3)並不是不可克服的,而且有些對於AlphaGo的訓練是非常關鍵的,但是很少存在於其他真實世界的應用(4,6)。
結論雖然 AlphaGo 在AI算法方面並沒有根本性的突破,雖然它仍然隻是狹義AI的一個例子,但 AlphaGo 仍然象征著 Alphabet 的AI 能力:該公司的人才數量/質量上,他們掌握的計算資源,以及公司高層對AI的關註。
Alphabet 在AI上下瞭大賭註,而且是安全的賭註。不過也許我的這篇文章是帶有偏見的
原創文章,作者:新智元。轉載或內容合作請聯系zhuanzai@36kr.com;違規轉載法律必究。尋求報道請加微信:report36Kr520。人工智能遊戲機器人谷歌網紅安全贊+1新智元特邀作者“點擊”盡享閱讀沉浸模式,
沉浸模式下點擊右台中靜電機租賃上角按鈕返回
打開微信 掃一掃 ,
打開網頁後點擊屏幕
右上角 分享 按鈕
18+10參與討論提交評論登錄後參與討論相關文章機器人目標110分挑戰高考數學卷;監控機器人上崗高速公路|機器人日報
文/孫榕澤
摩根士丹利欲進行員工“半機器人”升級;歐盟高管反對征收機器人稅|機器人日報
文/孫榕澤
徹底擺脫人類,比戰勝柯潔還厲害的AlphaGo要來瞭
文/新智元
贊助商 加載中
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
留言列表