dqn系列梳理_深度增强学习方向论文整理
一. 开山鼻祖DQN二. DQN的各种改进版本(侧重于算法上的改进)Dynamic Frame skip Deep Q Network, A. S. Lakshminarayanan et al., IJCAI Deep RL Workshop, 2016.三. DQN的各种改进版本(侧重于模型的改进)四. 基于策略梯度的深度强化学习深度策略梯度:深度行动者评论家算法:搜索与监督:2. Inter
一. 开山鼻祖DQN
二. DQN的各种改进版本(侧重于算法上的改进)Dynamic Frame skip Deep Q Network, A. S. Lakshminarayanan et al., IJCAI Deep RL Workshop, 2016.
三. DQN的各种改进版本(侧重于模型的改进)
四. 基于策略梯度的深度强化学习
深度策略梯度:
深度行动者评论家算法:
搜索与监督:
2. Interactive Control of Diverse Complex Characters with Neural Networks
连续动作空间下探索改进:
1. Curiosity-driven Exploration in DRL via Bayesian Neuarl Networks
结合策略梯度和Q学习:
其它策略梯度文章:
五. 分层DRL
六. DRL中的多任务和迁移学习1. ADAAPT: A Deep Architecture for Adaptive Policy Transfer from Multiple Sources
七. 基于外部记忆模块的DRL模型
八. DRL中探索与利用问题
九. 多Agent的DRL
十. 逆向DRL
十一. 探索+监督学习
十二. 异步DRL
十三:适用于难度较大的游戏场景
十四:单个网络玩多个游戏
十五:德州poker
十六:Doom游戏
十七:大规模动作空间
十八:参数化连续动作空间
十九:Deep Model
二十:DRL应用
机器人领域:
机器翻译:
目标定位:
目标驱动的视觉导航:
自动调控参数:
人机对话:
视频预测:
文本到语音:
文本生成:
文本游戏:
无线电操控和信号监控:
DRL来学习做物理实验:
DRL加速收敛:
利用DRL来设计神经网络:
控制信号灯:
自动驾驶:
二十一:其它方向避免危险状态:
DRL中On-Policy vs. Off-Policy 比较:
注1:小伙伴们如果觉得论文一个个下载太麻烦,可以私信我,我打包发给你。
注2:欢迎大家及时补充新的或者我疏漏的文献。
更多推荐
所有评论(0)