必威(betway·官方网站)西汉姆联-EURO CUP

在线办公系统

编辑部公告

·	new《太原理工大学学报》征稿函

·	《太原理工大学学报》编辑部招募启事

·	编辑部关于缴费的温馨提示

作者缴纳版面费说明

期刊在线

高级检索

专题阅读

当期目录

过刊浏览

主管单位：山西省教育厅
主办单位：太原理工大学
出版单位：《太原理工大
　　　　学学报》编辑部
主　　编：孙宏斌
执行主编：冯国瑞
常务副主编：刘旭光
副主编：郝晓刚董宪姝
董晓强强　彦
熊晓燕　贾丽红
编辑部主任：贾丽红
国内发行：太原市邮政局
　　　　　报刊发行局
国外发行：中国国际图书
　　　　　贸易总公司
邮发代号：22-27
CN：14-1220/N
ISSN：1007-9432

您当前的位置：首页 > 论文 > 优先出版

引用本文:

李海亮，王莉.有样本重用的阶段性策略梯度深度强化学习[J/OL].太原理工大学学报,DOI:10.16355／j.tyut.1007-9432.20230300

PDF点击下载大小：777KB浏览：次下载：次

有样本重用的阶段性策略梯度深度强化学习

DOI:

10.16355／j.tyut.1007-9432.20230300

摘要:

深度强化学习是一项非常具有前景的研究领域，它能够应用于多个领域，解决各种

复杂任务。针对基于策略的深度强化学习算法中存在的样本不能重复利用，样本利用率低的问题，提出一种有样本重用的阶段性策略梯度算法（phasic policy gradient with sample reuse，SR-PPG）。该算法在阶段性策略梯度算法（phasic policy gradient，PPG）的基础上引入离线数据，从而减小训练的时间成本，使模型能够快速收敛。在这项工作中，SR-PPG将理论上支持的在线策略算法的稳定性优势与离线策略算法的样本效率相结合，开发了适用于离线策略设置的策略改进保证，并将这些界限与阶段性策略梯度算法使用的剪裁机制联系起来。一系列理论和实验证明，该算法通过有效平衡稳定性和样本效率这两个相互竞争的目标，提供了更好的性能。

关键字:

深度强化学习；阶段性策略梯度；样本重用