《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 設(shè)計應(yīng)用 > 基于模仿學(xué)習(xí)和強化學(xué)習(xí)的啟發(fā)式多智能體路徑規(guī)劃
基于模仿學(xué)習(xí)和強化學(xué)習(xí)的啟發(fā)式多智能體路徑規(guī)劃
網(wǎng)絡(luò)安全與數(shù)據(jù)治理
郭傳友,劉志飛,田景志,劉先忠
中國人民解放軍61150部隊
摘要: 多智能體路徑規(guī)劃(Multi-Agent Path Finding, MAPF)擴展到大型動態(tài)環(huán)境中是一個越來越有挑戰(zhàn)的問題?,F(xiàn)實世界中,環(huán)境動態(tài)變化往往需要實時重新規(guī)劃路徑。在部分可觀察環(huán)境中,使用強化學(xué)習(xí)方法學(xué)習(xí)分散的策略解決MAPF問題表現(xiàn)出較大潛力。針對智能體之間如何學(xué)會合作和環(huán)境獎勵稀疏問題,提出基于模仿學(xué)習(xí)和強化學(xué)習(xí)的啟發(fā)式多智能體路徑規(guī)劃算法。實驗表明,該方法在高密度障礙環(huán)境中具有較好的性能和擴展性。
中圖分類號:TP181文獻標(biāo)識碼:ADOI:10.19358/j.issn.2097-1788.2024.09.006
引用格式:郭傳友,劉志飛,田景志,等.基于模仿學(xué)習(xí)和強化學(xué)習(xí)的啟發(fā)式多智能體路徑規(guī)劃[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2024,43(9):33-40.
Heuristic multi-agent path finding VIA imitation learning and reinforcement learning
Guo Chuanyou,Liu Zhifei,Tian Jingzhi,Liu Xianzhong
Chinese People′s Liberation Army 61150 Unit
Abstract: The extension of multi-agent path finding(MAPF) to large-scale dynamic environment is an increasingly challenging problem. In the real world, dynamic changes in the environment often require real-time re planning. Using reinforcement learning method to learn decentralized strategies in some observable environments shows great potential to solve MAPF problems. A heuristic multi-agent path planning algorithm based on imitation learning and reinforcement learning is proposed to address the problems of how intelligent agents learn to cooperate and sparse environmental rewards. Experiments show that this method has good performance and scalability in high-density obstacle environment.
Key words : multi-agent path finding; reinforcement learning; imitation learning; heuristic

引言

MAPF是對不同起始位置的多個智能體到他們各自目標(biāo)位置的路徑規(guī)劃問題,關(guān)鍵約束是在保證智能體之間互相不碰撞的前提下到達目標(biāo)位置,并保證路徑規(guī)劃的速度和質(zhì)量。MAPF在實際場景中有許多應(yīng)用,如大型倉庫管理[1-2]、數(shù)字游戲[3]、火車調(diào)度[4]、城市道路網(wǎng)絡(luò)[5]、多機器人系統(tǒng)[6]等,更多實際應(yīng)用可參考文獻[7]。近年來,越來越多的團隊對MAPF展開研究[8-11],MAPF取得了突破性進展,尤其是基于強化學(xué)習(xí)(Reinforcement Learning, RL)方法應(yīng)用到MAPF問題中取得了較好效果,國內(nèi)對MAPF問題的研究也越來越濃厚。

求解MAPF的最優(yōu)解已經(jīng)被證明是NPHard問題[12]。傳統(tǒng)方法將MAPF規(guī)約為其他已解決的問題如SAT[13],或使用基于搜索的算法來解決,經(jīng)典方法有增強的搜索[14]、基于沖突的搜索[15]以及改進的變體[16]等。然而,隨著環(huán)境的動態(tài)變化和智能體數(shù)量的增加,搜索空間巨大對傳統(tǒng)MAPF算法構(gòu)成挑戰(zhàn)。基于搜索的MAPF算法通過引入優(yōu)先規(guī)劃、大領(lǐng)域搜索和復(fù)雜的啟發(fā)式函數(shù)來優(yōu)化改進MAPF算法,前沿的算法有EECBS[17]、CCBS[18]、MOA*[19]、MAPFMLLNS[20]。這些算法能解決3 000多個智能體規(guī)模的MAPF問題,而且規(guī)劃效率和質(zhì)量較高,但這些集中式規(guī)劃算法不能實時規(guī)劃路徑,可擴展性差。最近,分散式執(zhí)行的強化學(xué)習(xí)方法應(yīng)用于解決MAPF問題表現(xiàn)出較大的潛力,每個智能體根據(jù)局部觀察分散執(zhí)行策略。

RL智能體在大型環(huán)境中和環(huán)境互動時,只有達到目標(biāo)才可以獲取獎勵,而到達目標(biāo)的過程中獎勵稀疏,學(xué)習(xí)效率不高,訓(xùn)練時間長,智能體還可能陷入死胡同。PRIMAL(Pathfinding via Reinforcement and Imitation MultiAgent Learning)[21]采取集中式MAPF規(guī)劃器生成專家演示路徑,訓(xùn)練過程中結(jié)合了模仿學(xué)習(xí)和強化學(xué)習(xí),加速了學(xué)習(xí)過程,但計算比較耗時,求解質(zhì)量還需提高。G2RL(Globally Guided RL)[22]給予每個智能體額外的獎勵遵循單智能體最短路徑,但這可能會誤導(dǎo)智能體,因為到達目標(biāo)位置的路徑不是唯一的,這會影響智能體和其他智能體之間的協(xié)調(diào)合作。DHC(Distributed Heuristic multiagent path finding with Communication)[23]使用多條潛在路徑作為智能體路徑的啟發(fā)式輸入,并采用圖卷積網(wǎng)絡(luò)來加強智能體之間的通信,促進智能體之間的顯式協(xié)調(diào),但學(xué)習(xí)速度較慢。為了解決上述問題,本文提出了基于強化學(xué)習(xí)和模仿學(xué)習(xí)的啟發(fā)式多智能體路徑規(guī)劃算法(Heuristic multi-agent path planning via Imitation and Reinforcement Learning, HIRL),在智能體的觀察中加入額外的目標(biāo)向量,并嵌入從目標(biāo)源到智能體的多條潛在最短路徑作為神經(jīng)網(wǎng)絡(luò)的輸入,使用模仿學(xué)習(xí)來促進智能體之間的隱式協(xié)調(diào),引入目標(biāo)牽引的獎勵函數(shù)來鼓勵智能體進行有效的探索,當(dāng)智能體向目標(biāo)方向移動時給予正獎勵。智能體依據(jù)自己的局部觀察來做出決策,不需要學(xué)習(xí)聯(lián)合動作值,因此具有很好的可擴展性。本文采用的主要方法如下:

(1)采用模仿學(xué)習(xí)框架加速智能體學(xué)習(xí),促進智能體之間的隱式協(xié)調(diào),而不需要智能體之間的顯式通信。

(2)采用智能體到目標(biāo)位置的方向向量作為智能體觀察的額外信息。

(3)引入目標(biāo)牽引的獎勵函數(shù),鼓勵智能體朝著目標(biāo)方向進行有效的探索。

(4)嵌入了從目標(biāo)源到智能體多條最短路徑作為神經(jīng)網(wǎng)絡(luò)的輸入,能更有效地避免智能體之間的沖突和死鎖情況發(fā)生。

(5)使用部分可觀察的環(huán)境,智能體根據(jù)有限視野的觀察決策行動,更加符合現(xiàn)實世界的環(huán)境。


本文詳細(xì)內(nèi)容請下載:

http://m.jysgc.com/resource/share/2000006161


作者信息:

郭傳友,劉志飛,田景志,劉先忠

(中國人民解放軍61150部隊,陜西榆林719000)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
久久久国产精品一区| 欧美福利视频网站| 亚洲青色在线| 亚洲第一精品影视| 久久爱另类一区二区小说| 亚洲欧美日韩在线观看a三区| 野花国产精品入口| 一区二区三区欧美激情| 亚洲美女淫视频| 亚洲免费av网站| 99精品国产高清一区二区| 亚洲免费福利视频| 99re66热这里只有精品4| 日韩写真视频在线观看| 夜夜爽av福利精品导航| 日韩午夜中文字幕| 99精品国产高清一区二区| 日韩一区二区免费高清| 99re在线精品| 一区二区三区不卡视频在线观看| 日韩写真视频在线观看| 一本色道久久综合一区 | 中文日韩在线| 亚洲调教视频在线观看| 亚洲视频在线观看免费| 亚洲一区二区3| 欧美一区国产二区| 亚洲欧洲日产国码二区| 一区二区三区四区五区视频| 中文在线资源观看视频网站免费不卡| 亚洲欧美另类久久久精品2019| 香蕉久久夜色| 久久精品免费看| 麻豆亚洲精品| 欧美日韩精品久久| 国产精品麻豆欧美日韩ww | 国产亚洲成人一区| 在线观看不卡av| 亚洲精品日本| 亚洲一区免费网站| 久久精品视频99| 中国亚洲黄色| 欧美中文字幕在线| 欧美成人久久| 国产精品露脸自拍| 伊伊综合在线| 在线午夜精品自拍| 久久精品人人做人人爽电影蜜月| 亚洲精品一区在线| 亚洲影音一区| 另类天堂av| 欧美体内she精视频| 国产一区二区高清| 亚洲精品乱码久久久久久按摩观 | 欧美成人激情视频| 国产精品国内视频| 在线观看成人一级片| 一区二区三区三区在线| 欧美一站二站| 一区二区不卡在线视频 午夜欧美不卡在 | 午夜在线电影亚洲一区| 久久这里只精品最新地址| 欧美日韩一区二区三| 国产一区久久| 一本一本a久久| 亚洲国产精品成人久久综合一区| 亚洲一区中文| 蜜桃av噜噜一区| 国产精品一区二区在线观看网站 | 欧美激情性爽国产精品17p| 国产精品福利在线观看网址| 黄色成人免费观看| 在线午夜精品自拍| 亚洲日本黄色| 久久久国产亚洲精品| 欧美日韩综合久久| 亚洲成人在线视频网站| 午夜宅男久久久| 一区二区冒白浆视频| 久久视频精品在线| 国产精品美女主播| 亚洲乱码日产精品bd| 久久精品亚洲国产奇米99| 午夜宅男欧美| 欧美另类99xxxxx| 在线观看视频欧美| 性感少妇一区| 午夜精品一区二区三区四区| 欧美精品国产一区二区| 合欧美一区二区三区| 亚洲欧美韩国| 亚洲午夜精品久久| 欧美精品免费观看二区| 在线播放日韩| 亚洲第一色中文字幕| 久久成人精品| 国产精品制服诱惑| 亚洲一区二区免费在线| 夜夜精品视频一区二区| 蜜桃av噜噜一区| 韩国av一区二区| 亚洲欧美日韩专区| 午夜免费在线观看精品视频| 欧美日韩视频在线| 亚洲黄色大片| 亚洲人成欧美中文字幕| 久久亚洲精选| 国产自产在线视频一区| 欧美亚洲系列| 久久动漫亚洲| 国产日韩精品一区二区| 亚洲自拍偷拍麻豆| 亚洲欧美综合一区| 国产精品久久久久久模特| 亚洲裸体视频| 一区二区三区不卡视频在线观看 | 国产精品久久久久免费a∨| 一区二区三区精品视频| 一区二区三区成人| 欧美日韩国产综合一区二区| 亚洲人成绝费网站色www| 亚洲人成网站999久久久综合| 蜜臀91精品一区二区三区| 亚洲高清免费视频| 亚洲人成精品久久久久| 免费亚洲电影| 亚洲国产精品久久久久婷婷老年| 亚洲精品一区在线| 欧美日韩另类丝袜其他| 夜夜嗨av一区二区三区网页 | 国产精品欧美日韩| 亚洲一区二区免费| 欧美一级专区免费大片| 国产伦精品一区二区三区四区免费| 亚洲一区二区网站| 久久国产88| 狠狠狠色丁香婷婷综合激情| 亚洲国产精品福利| 欧美精品在线一区二区三区| 日韩视频久久| 午夜亚洲福利| 国产主播一区| 亚洲美女精品成人在线视频| 欧美日产一区二区三区在线观看 | 亚洲欧美日本精品| 国产一级精品aaaaa看| 亚洲国产精彩中文乱码av在线播放| 欧美成人免费在线观看| 亚洲另类视频| 欧美在线日韩精品| 亚洲第一福利在线观看| 一区二区三欧美| 国产精品中文字幕欧美| 久久精品女人天堂| 欧美激情综合色综合啪啪| 99国产精品久久久久老师| 亚洲欧美日韩天堂| 韩国av一区二区三区四区| 日韩视频在线观看免费| 国产精品成人一区二区三区吃奶 | 久久国产加勒比精品无码| 欧美激情一区二区三区成人| 亚洲深夜福利视频| 久久躁狠狠躁夜夜爽| 亚洲精品日韩久久| 欧美中文字幕在线观看| 亚洲国产成人av好男人在线观看| 亚洲视频图片小说| 国内成+人亚洲+欧美+综合在线| 日韩网站免费观看| 国产伦精品免费视频 | 久久精品99国产精品| 亚洲国产mv| 新狼窝色av性久久久久久| 在线成人免费观看| 亚洲免费在线视频| 亚洲福利精品| 欧美伊人久久久久久午夜久久久久| 伊大人香蕉综合8在线视| 亚洲欧美国产77777| 樱桃视频在线观看一区| 亚洲欧美影音先锋| 亚洲国产一二三| 欧美一级黄色录像| 亚洲经典自拍| 久久精品中文字幕一区| 一本高清dvd不卡在线观看| 老司机午夜精品| 亚洲欧美国产另类| 欧美日韩视频在线观看一区二区三区 | 久久av资源网站| 99re视频这里只有精品| 久久综合精品国产一区二区三区| av不卡在线观看| 老司机午夜精品视频| 亚洲欧美一区二区视频| 欧美日韩免费在线观看| 亚洲国产美国国产综合一区二区| 国产精品爽爽爽| 中日韩美女免费视频网址在线观看 |