您当前的位置: 首页 > 论文 > 2021,52(05) > 信息与计算机·电气与动力工程
基金项目:
国家自然科学基金资助项目(61872260)
分类号:
TP273
DOI:
10.16355/j.cnki.issn1007-9432tyut.2021.05.008
期刊号:
2021,52(05)
收稿日期:
修回日期:
通讯作者 | 单位 |
王莉 | 太原理工大学 大数据学院 |
摘要:
针对多智能体协同训练中存在的经验缓存机制构建和回放问题,提出一种基于优先经验回放的多智能体协同算法(prioritized experience replayfor multi-agent cooperation,PEMAC)。该算法在MAAC(actor-attention-critic for multi-agent reinforcement learning)算法的基础上引入优先经验回放的思想。训练过程中,算法基于TD误差(temporal-difference)对经验数据比例优先级进行标记,每次采样均采取优先级较高的经验数据更新网络。实验结果表明该算法提升了训练数据的质量,从而提升了模型收敛速度和学习效率,且该算法在合作寻宝和漫游者-发射塔环境中的表现性能均优于基线算法。
关键字:
深度强化学习;多智能体协同;优先经验缓存回放;TD误差