聯合隨機性策略的深度強化學習探索方法
所屬分類:技術論文
上傳者:zhoubin333
文檔大小:679 K
標簽: 強化學習 深度強化學習 探索利用困境
所需積分:0分積分不夠怎么辦?
文檔介紹: 目前深度強化學習算法已經可以解決許多復雜的任務,然而如何平衡探索和利用的關系仍然是強化學習領域的一個基本的難題,為此提出一種聯合隨機性策略的深度強化學習探索方法。該方法利用隨機性策略具有探索能力的特點,用隨機性策略生成的經驗樣本訓練確定性策略,鼓勵確定性策略在保持自身優勢的前提下學會探索。通過結合確定性策略算法DDPG和提出的探索方法,得到基于隨機性策略指導的確定性策略梯度算法(SGDPG)。在多個復雜環境下的實驗表明,面對探索問題,SGDPG的探索效率和樣本利用率要優于DDPG算法。
現在下載
VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。
主站蜘蛛池模板: 最近日本字幕免费高清| 精品午夜福利1000在线观看| 国产超碰人人模人人爽人人喊 | 岳的奶大又白又胖| 久久久久久网站| 星空无限传媒xk8046| 亚洲国产精品专区| 欧美色欧美亚洲另类二区| 免费A级毛片无码久久版| 精品无码一区在线观看| 国产一区二区福利| 野外做受又硬又粗又大视频| 国产日韩欧美综合| 亚洲五月综合网色九月色| 国产精品福利久久香蕉中文 | 2021年国产精品久久| 国内自拍成人网在线视频| av在线亚洲男人的天堂| 女人脱裤子让男生桶的免费视频| 三级理论中文字幕在线播放| 无码国产精品一区二区免费式芒果 | avove尤物| 女人张开腿让男人桶视频| 十七岁在线观看资源网| 草莓视频国产在线观看| 国产在线无码精品电影网| 国产香蕉在线精彩视频| 国产熟女一区二区三区五月婷| 18精品久久久无码午夜福利| 国产色综合天天综合网| 97国产精品视频观看一| 在线观看人成网站深夜免费| baoyu777永久免费视频| 奇米四色77777| mm1313亚洲国产精品无码试看| 妖精色av无码国产在线看| 一本大道一卡2卡三卡4卡麻豆| 性做久久久久久久久| 乱人伦人妻中文字幕无码| 欧美一区二区三区四区视频| 亚洲制服丝袜中文字幕|