深度强化学习已经为复杂任务产生了熟练的控制器。然而,这些控制器的内存有限,并且依赖于能够在每个决策点感知完整的游戏屏幕。为了解决这些缺点,本文研究了通过用循环 LSTM 替换第一个后卷积全连接层来向深度 Q 网络 (DQN) 添加循环的效果 ...

0 0 0 0 2024/03/19 arXiv:1507.06527v4 steven_yuding

我们提出了第一个深度学习模型,可以使用强化学习直接从高维感官输入成功学习控制策略。该模型是一个卷积神经网络,采用 Q 学习的变体进行训练,其输入是原始像素,其输出是估计未来奖励的值函数。我们将我们的方法应用于街机学习环境中的七款 Atari 2600 游戏,无需调整架构或学习算法 ...

0 0 0 0 2024/03/17 arXiv:1312.5602v1 steven_yuding

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)