必威(betway·官方网站)西汉姆联-EURO CUP

在线办公系统

编辑部公告

·	new《太原理工大学学报》征稿函

·	《太原理工大学学报》编辑部招募启事

·	编辑部关于缴费的温馨提示

作者缴纳版面费说明

期刊在线

高级检索

专题阅读

当期目录

过刊浏览

主管单位：山西省教育厅
主办单位：太原理工大学
出版单位：《太原理工大
　　　　学学报》编辑部
主　　编：孙宏斌
执行主编：冯国瑞
常务副主编：刘旭光
副主编：郝晓刚董宪姝
董晓强强　彦
熊晓燕　贾丽红
编辑部主任：贾丽红
国内发行：太原市邮政局
　　　　　报刊发行局
国外发行：中国国际图书
　　　　　贸易总公司
邮发代号：22-27
CN：14-1220/N
ISSN：1007-9432

您当前的位置：首页 > 论文 > 2021,52(05) > 信息与计算机·电气与动力工程

引用本文:

黄子蓉甯彦淞王莉.基于优先经验回放的多智能体协同算法[J].太原理工大学学报,2021,52(05):747-753

HTML

PDF点击下载大小：6.81MB浏览：次下载：次

基于优先经验回放的多智能体协同算法

基金项目:

国家自然科学基金资助项目(61872260)

分类号:

TP273

DOI:

10.16355/j.cnki.issn1007-9432tyut.2021.05.008

期刊号:

2021,52(05)

收稿日期:

修回日期:

通讯作者	单位
王莉	太原理工大学大数据学院

摘要:

针对多智能体协同训练中存在的经验缓存机制构建和回放问题，提出一种基于优先经验回放的多智能体协同算法(prioritized experience replayfor multi-agent cooperation，PEMAC)。该算法在MAAC(actor-attention-critic for multi-agent reinforcement learning)算法的基础上引入优先经验回放的思想。训练过程中，算法基于TD误差(temporal-difference)对经验数据比例优先级进行标记，每次采样均采取优先级较高的经验数据更新网络。实验结果表明该算法提升了训练数据的质量，从而提升了模型收敛速度和学习效率，且该算法在合作寻宝和漫游者-发射塔环境中的表现性能均优于基线算法。

关键字:

深度强化学习；多智能体协同；优先经验缓存回放；TD误差