《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > 業界動態 > 「AlphaGo 之父」David Silver最新演講,傳授強化學習的十大原則

「AlphaGo 之父」David Silver最新演講,傳授強化學習的十大原則

2018-09-17

9 月 9 日-14 日,Deep Learning Indaba 2018 大會在南非斯泰倫博斯舉行。會上,DeepMind 強化學習研究小組負責人、首席研究員、AlphaGo 項目負責人 David Silver 發表演講,介紹了強化學習的十大原則。機器之心對該演講進行了介紹。


演講課件地址:http://www.deeplearningindaba.com/uploads/1/0/2/6/102657286/principles_of_deep_rl.pdf

微信圖片_20180917215347.jpg


原則一:評估方法驅動研究進展


David Silver 指出,客觀、量化的評估方法是強化學習進展的重要驅動力:


評估指標的選擇決定了研究進展的方向;

這可以說是強化學習項目中最重要的一個決定。


David Silver 介紹了兩種評估方法:


排行榜驅動的研究

  確保評估指標緊密對應最終目標;

  避免主觀評估(如人類評估)。


假設驅動的研究

  形成一個假設:Double-Q 學習優于 Q 學習,因為前者減少了向上偏誤(upward bias);

  在寬泛的條件下驗證該假設;

  對比同類方法,而不是只與當前最優方法進行對比;

  尋求理解,而不是排行榜表現。

微信圖片_20180917215411.jpg


原則二:可擴展性是成功的關鍵


David Silver 認為可擴展性是強化學習研究成功的關鍵。


算法的可擴展性指與資源相關的算法的性能變化;

資源包括計算量、內存或數據;

算法的可擴展性最終決定算法成功與否;

可擴展性比研究的起點更加重要;

優秀的算法在給定有限資源的條件下是最優的。

微信圖片_20180917215439.jpg


原則三:通用性(Generality)支持算法的長遠有效性


算法的通用性指它在不同強化學習環境中的性能。研究者在訓練時要避免在當前任務上的過擬合,并尋求可以泛化至未來未知環境的算法。


我們無法預測未來,但是未來任務的復雜度可能至少和當前任務持平;在當前任務上遇到的困難在未來則很有可能增加。


因此,要想使算法可以泛化至未來的不同強化學習環境,研究者必須在多樣化且真實的強化學習環境集合上測試算法。

微信圖片_20180917215508.jpg


原則四:信任智能體的經驗


David Silver 指出經驗(觀察、動作和獎勵)是強化學習的數據,公式可以寫作:


h_t=o_1,r_1,a_2,o_2,r_2,...,a_t,o_t,r_t


經驗流隨智能體在環境中學習時間的延長而累積。


他告誡我們,要把智能體的經驗作為知識的唯一來源。人們在智能體學習遇到問題時傾向于添加人類的專業知識(人類數據、特征、啟發式方法、約束、抽象、域操控)。


他認為,完全從經驗中學習看起來似乎不可能。也就是說,強化學習的核心問題非常棘手。但這是 AI 的核心問題,也值得我們付出努力。從長遠來看,從經驗中學習一直是正確的選擇。

微信圖片_20180917215530.jpg


原則五:狀態是主觀的


David Silver 指出:


智能體應該從它們的經驗中構建屬于自己的狀態,即:s_t=f(h_t)

智能體狀態是前一個狀態和新觀察的函數:s_t=f(s_t-1,a_t-1,o_t,r_t) 


如下圖所示:

微信圖片_20180917215557.jpg

它是循環神經網絡的隱藏狀態。

永遠不要根據環境的「真實」狀態來定義狀態(智能體應該是一個部分可觀察馬爾可夫鏈模型)。

微信圖片_20180917215712.jpg


原則六:控制數據流


智能體存在于豐富的感覺運動(sensorimotor)數據流中:

  觀測結果的數據流輸入到智能體中;

  智能體輸出動作流。

智能體的動作會影響數據流:

微信圖片_20180917215733.jpg

特征控制 => 數據流控制

數據流控制 => 控制未來

控制未來 => 可以最大化任意獎勵

微信圖片_20180917215807.jpg


原則七:用價值函數對環境建模


David Silver 首先給出了使用價值函數的三個原因:


高效地對未來進行總結/緩存;

將規劃過程簡化為固定時間的查找,而不是進行指數時間量級的預測;

獨立于時間步跨度進行計算和學習。


他指出,學習多個價值函數可以高效地建模環境的多個方面(控制狀態流),包括隨后的狀態變量;還能在多個時間尺度上學習。他還提醒我們避免在過于簡化的時間步上建模環境。

微信圖片_20180917215831.jpg


原則八:規劃:從想象的經驗中學習


David Silver 提出了一種有效的規劃方法,并將其分為兩步。首先想象下一步會發生什么,從模型中采樣狀態的軌跡;然后利用我們在真實經驗中用過的 RL 算法從想象的經驗中學習。他提醒我們從現在開始關注價值函數逼近。

微信圖片_20180917215904.jpg


原則九:使用函數近似器


David Silver 認為,可微網絡架構是一種強大的工具,可以豐富狀態表示,同時使可微記憶、可微規劃以及分層控制更加便利。他提出將算法復雜度引入網絡架構,以減少算法復雜度(指參數的更新方式),增加架構的表達性(指參數的作用)。

微信圖片_20180917215925.jpg


原則十:學會學習


AI 史是一個進步史:


第一代:舊式的 AI

  手動預測:此時的人工智能只能執行手動預測

  什么也學不會

第二代:淺層學習

  手動構建特征:研究人員需要耗費大量時間、精力手動構建特征

  學習預測

第三代:深度學習

  手動構建的算法(優化器、目標、架構……)

  端到端學習特征和預測

第四代:元學習

  無需手工

  端到端學習算法和特征以及預測


微信圖片_20180917215950.jpg


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
亚洲国产另类久久久精品极度| 亚洲私拍自拍| 欧美三级特黄| 欧美激情性爽国产精品17p| 美国成人直播| 另类图片综合电影| 久久字幕精品一区| 久久综合五月天婷婷伊人| 久久免费视频在线观看| 久久夜色精品国产欧美乱极品| 久久久久www| 久久夜精品va视频免费观看| 巨乳诱惑日韩免费av| 久久这里只有精品视频首页| 美女图片一区二区| 欧美激情国产日韩| 欧美日韩国产色综合一二三四 | 久久在线播放| 乱人伦精品视频在线观看| 噜噜噜躁狠狠躁狠狠精品视频| 老司机成人在线视频| 欧美xx69| 欧美日韩国产片| 国产精品久久久久秋霞鲁丝| 国产精品日韩欧美大师| 国产视频一区三区| 影音先锋久久| 亚洲狼人综合| 亚洲一区在线观看视频 | 鲁大师成人一区二区三区| 免费在线国产精品| 欧美人与禽猛交乱配| 国产精品成人免费精品自在线观看| 国产精品日本一区二区| 国模套图日韩精品一区二区| 曰韩精品一区二区| 日韩视频在线观看免费| 亚洲视频一区在线| 欧美一区二区三区免费观看| 亚洲国产精品一区在线观看不卡 | 久久国产视频网| 麻豆av一区二区三区| 欧美日韩午夜剧场| 国产精品视频内| 精品9999| 亚洲深夜福利网站| 久久精品国产亚洲5555| 一卡二卡3卡四卡高清精品视频| 午夜精品久久久久久久蜜桃app | 欧美在线播放一区| 欧美 亚欧 日韩视频在线| 欧美日韩视频一区二区| 国产人成精品一区二区三| 亚洲国产精品久久| 亚洲一区三区电影在线观看| 亚洲国产精品电影| 亚洲欧美日韩国产精品| 免费欧美在线| 国产精品资源| 亚洲精品裸体| 欧美伊人久久久久久久久影院 | 欧美三级视频在线观看| 国产精品日韩一区二区| 狠狠v欧美v日韩v亚洲ⅴ| 亚洲人成毛片在线播放| 亚洲欧美伊人| 99在线热播精品免费| 久久精品国产第一区二区三区最新章节| 欧美.日韩.国产.一区.二区| 国产精品久久久久久久久久尿| 激情久久久久久| 在线亚洲自拍| 亚洲日本一区二区| 欧美一区二区视频观看视频| 欧美精品aa| 狠狠色噜噜狠狠色综合久| 在线亚洲观看| 亚洲伦伦在线| 久久青草欧美一区二区三区| 国产精品白丝jk黑袜喷水| 亚洲高清视频一区二区| 小处雏高清一区二区三区 | 亚洲午夜免费视频| 亚洲精品欧美日韩| 久久久噜噜噜久久狠狠50岁| 国产精品久久久久久福利一牛影视| 亚洲国产欧美在线| 亚洲福利视频一区| 久久成人人人人精品欧| 欧美视频一区二区三区四区| 亚洲黄色片网站| 久久国产加勒比精品无码| 午夜欧美理论片| 欧美日韩亚洲一区三区| 亚洲国产高清在线观看视频| 久久国产精品99久久久久久老狼 | 欧美一站二站| 国产精品久久激情| 亚洲精品欧美专区| 亚洲人成久久| 麻豆久久婷婷| 精品91视频| 久久精彩视频| 久久精品最新地址| 国产欧美日韩一区| 亚洲一区二区三区色| 亚洲午夜精品久久| 欧美日韩一级视频| 亚洲免费观看| 99精品免费视频| 欧美激情四色| 亚洲人成在线观看网站高清| 91久久精品www人人做人人爽 | 亚洲自拍16p| 午夜在线精品偷拍| 国产精品美女视频网站| 亚洲一区二区免费| 亚洲欧美中文字幕| 国产精品女人网站| 亚洲欧美日韩精品久久| 欧美永久精品| 国产亚洲一区在线| 久久www成人_看片免费不卡| 久久噜噜亚洲综合| 在线成人中文字幕| 亚洲精品中文字幕有码专区| 欧美国产精品va在线观看| 亚洲欧洲在线看| 在线一区免费观看| 国产精品久久久久999| 亚洲欧美日韩精品在线| 性欧美1819sex性高清| 国产一区成人| 亚洲国产精彩中文乱码av在线播放| 牛牛影视久久网| 亚洲人成在线影院| 亚洲一区久久| 国产一级一区二区| 亚洲国产女人aaa毛片在线| 欧美激情aⅴ一区二区三区| 99精品视频一区二区三区| 午夜精品福利电影| 国内揄拍国内精品少妇国语| 亚洲欧洲在线看| 欧美日韩亚洲一区| 亚洲在线免费观看| 久久久久久一区二区| 一区在线影院| 宅男噜噜噜66一区二区| 国产精品永久| 亚洲电影免费观看高清完整版在线观看 | 国产一区二区三区丝袜| 亚洲激情欧美| 欧美日韩一区在线| 亚洲欧美日韩在线不卡| 卡一卡二国产精品| 99精品欧美一区| 久久精品官网| 亚洲精品美女| 欧美制服丝袜| 亚洲国产欧美另类丝袜| 亚洲性感激情| 好吊日精品视频| 一本色道久久| 国产一区二区欧美日韩| 亚洲欧洲精品一区二区三区| 欧美性感一类影片在线播放| 欧美在线电影| 欧美日韩免费观看一区三区| 亚洲欧美日韩在线高清直播| 欧美成人午夜免费视在线看片| 一区二区av| 蜜臀久久99精品久久久画质超高清 | 亚洲精品少妇| 欧美主播一区二区三区美女 久久精品人| 在线观看亚洲精品| 亚洲女性喷水在线观看一区| 永久免费毛片在线播放不卡| 午夜精品福利一区二区三区av | 欧美日韩免费区域视频在线观看| 欧美一区二区三区免费大片| 欧美日韩一区二区欧美激情| 久久精品夜色噜噜亚洲a∨| 欧美午夜在线一二页| 亚洲国产日本| 国产精品一区二区在线观看网站 | 欧美aⅴ99久久黑人专区| 亚洲免费人成在线视频观看| 欧美二区乱c少妇| 香蕉久久夜色精品| 欧美性大战久久久久| 亚洲日本欧美| 国产在线精品一区二区夜色| 亚洲欧美激情在线视频| 亚洲激情av在线| 久久久久国产精品一区二区| 亚洲视频专区在线| 欧美区一区二区三区| 亚洲黄色av| 国模套图日韩精品一区二区|