您好,欢迎访问太原理工大学学报| 收藏本站
主管单位:山西省教育厅
主办单位:太原理工大学
出版单位:《太原理工大
    学学报》编辑部
主  编: 孙宏斌
执行主编: 冯国瑞
常务副主编: 刘旭光
副主编: 郝晓刚 董宪姝
董晓强 强 彦
熊晓燕 贾丽红
编辑部主任:贾丽红
国内发行:太原市邮政局
     报刊发行局
国外发行:中国国际图书
     贸易总公司
邮发代号:22-27
CN:14-1220/N
ISSN:1007-9432
您当前的位置: 首页 > 论文 > 2021,52(05) > 信息与计算机·电气与动力工程
引用本文:
  • HTMLPDF点击下载大小:6.81MB浏览:下载:
  • 基于优先经验回放的多智能体协同算法

    基金项目:
    国家自然科学基金资助项目(61872260)
    分类号:
    TP273
    DOI:
    10.16355/j.cnki.issn1007-9432tyut.2021.05.008
    期刊号:
    2021,52(05)
    收稿日期:
    修回日期:
    摘要:

    针对多智能体协同训练中存在的经验缓存机制构建和回放问题,提出一种基于优先经验回放的多智能体协同算法(prioritized experience replayfor multi-agent cooperation,PEMAC)。该算法在MAAC(actor-attention-critic for multi-agent reinforcement learning)算法的基础上引入优先经验回放的思想。训练过程中,算法基于TD误差(temporal-difference)对经验数据比例优先级进行标记,每次采样均采取优先级较高的经验数据更新网络。实验结果表明该算法提升了训练数据的质量,从而提升了模型收敛速度和学习效率,且该算法在合作寻宝和漫游者-发射塔环境中的表现性能均优于基线算法。


    关键字:
    深度强化学习;多智能体协同;优先经验缓存回放;TD误差

    网站版权:《太原理工大学学报》编辑部;您是本站第 访问者

    地址:太原市迎泽西大街79号,邮编:030024;电话:0351-6111188,6014376 ,6014556
    Baidu
    map