个性签名 ...
深度强化学习已经为复杂任务产生了熟练的控制器。然而,这些控制器的内存有限,并且依赖于能够在每个决策点感知完整的游戏屏幕。为了解决这些缺点,本文研究了通过用循环 LSTM 替换第一个后卷积全连接层来向深度 Q 网络 (DQN) 添加循环的效果 ...
我们提出了第一个深度学习模型,可以使用强化学习直接从高维感官输入成功学习控制策略。该模型是一个卷积神经网络,采用 Q 学习的变体进行训练,其输入是原始像素,其输出是估计未来奖励的值函数。我们将我们的方法应用于街机学习环境中的七款 Atari 2600 游戏,无需调整架构或学习算法 ...