您好,欢迎访问太原理工大学学报| 收藏本站
主管单位:山西省教育厅
主办单位:太原理工大学
出版单位:《太原理工大
    学学报》编辑部
主  编: 孙宏斌
执行主编: 冯国瑞
常务副主编: 刘旭光
副主编: 郝晓刚 董宪姝
董晓强 强 彦
熊晓燕 贾丽红
编辑部主任:贾丽红
国内发行:太原市邮政局
     报刊发行局
国外发行:中国国际图书
     贸易总公司
邮发代号:22-27
CN:14-1220/N
ISSN:1007-9432
您当前的位置: 首页 > 论文 > 优先出版
引用本文:
  • PDF点击下载大小:777KB浏览:下载:
  • 有样本重用的阶段性策略梯度深度强化学习

    DOI:
    10.16355/j.tyut.1007-9432.20230300
    摘要:

    深度强化学习是一项非常具有前景的研究领域,它能够应用于多个领域,解决各种

    复杂任务。针对基于策略的深度强化学习算法中存在的样本不能重复利用,样本利用率低的问题, 提出一种有样本重用的阶段性策略梯度算法(phasic policy gradient with sample reuseSR-PPG)。该算法在阶段性策略梯度算法(phasic policy gradientPPG)的基础上引入离线数据,从而减小训练的时间成本,使模型能够快速收敛。在这项工作中,SR-PPG将理论上支持的在线策略算法的稳定性优势与离线策略算法的样本效率相结合,开发了适用于离线策略设置的策略改进保证,并将这些界限与阶段性策略梯度算法使用的剪裁机制联系起来。一系列理论和实验证明,该算法通过有效平衡稳定性和样本效率这两个相互竞争的目标,提供了更好的性能。


    关键字:
    深度强化学习;阶段性策略梯度;样本重用

    网站版权:《太原理工大学学报》编辑部;您是本站第 访问者

    地址:太原市迎泽西大街79号,邮编:030024;电话:0351-6111188,6014376 ,6014556
    Baidu
    map