一. 开山鼻祖DQN

二. DQN的各种改进版本(侧重于算法上的改进)Dynamic Frame skip Deep Q Network, A. S. Lakshminarayanan et al., IJCAI Deep RL Workshop, 2016.

三. DQN的各种改进版本(侧重于模型的改进)

四. 基于策略梯度的深度强化学习

深度策略梯度:

深度行动者评论家算法:

搜索与监督:

2. Interactive Control of Diverse Complex Characters with Neural Networks

连续动作空间下探索改进:

1. Curiosity-driven Exploration in DRL via Bayesian Neuarl Networks

结合策略梯度和Q学习:

其它策略梯度文章:

五. 分层DRL

六. DRL中的多任务和迁移学习1. ADAAPT: A Deep Architecture for Adaptive Policy Transfer from Multiple Sources

七. 基于外部记忆模块的DRL模型

八. DRL中探索与利用问题

九. 多Agent的DRL

十. 逆向DRL

十一. 探索+监督学习

十二. 异步DRL

十三:适用于难度较大的游戏场景

十四:单个网络玩多个游戏

十五:德州poker

十六:Doom游戏

十七:大规模动作空间

十八:参数化连续动作空间

十九:Deep Model

二十:DRL应用

机器人领域:

机器翻译:

目标定位:

目标驱动的视觉导航:

自动调控参数:

人机对话:

视频预测:

文本到语音:

文本生成:

文本游戏:

无线电操控和信号监控:

DRL来学习做物理实验:

DRL加速收敛:

利用DRL来设计神经网络:

控制信号灯:

自动驾驶:

二十一:其它方向避免危险状态:

DRL中On-Policy vs. Off-Policy 比较:

注1:小伙伴们如果觉得论文一个个下载太麻烦,可以私信我,我打包发给你。

注2:欢迎大家及时补充新的或者我疏漏的文献。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐