返回 登录
0

shincling

关联文章:揭秘深度强化学习
阅读151

文章不错,很适合现在我来学,但是有几个问题随手写出来造福观众吧。

  • 链接错了,我去找了下是http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/

    1. 未来回报折扣这里面的第三第四个公式粘错了。(然而原文里的第四个公式他好像也没按照他文章描述的那种方式写出来)

    2. Q-learning这一章节里的一句话翻译错了:“Q(s, a)可以理解为“在状态s下进行a操作之后,游戏结束时最有可能的得分 。” 不是最有可能的得分,是可能最大的得分。原文: the best possible score at the end of game 。根据马尔科夫的经典算法,应该也是可能最大这种理解对。

评论