steven_yuding的文档

steven_yuding

个性签名 ...

深度强化学习已经为复杂任务产生了熟练的控制器。然而，这些控制器的内存有限，并且依赖于能够在每个决策点感知完整的游戏屏幕。为了解决这些缺点，本文研究了通过用循环 LSTM 替换第一个后卷积全连接层来向深度 Q 网络 (DQN) 添加循环的效果 ...

0 0 0 0 2024/03/19 arXiv:1507.06527v4 steven_yuding

我们提出了第一个深度学习模型，可以使用强化学习直接从高维感官输入成功学习控制策略。该模型是一个卷积神经网络，采用 Q 学习的变体进行训练，其输入是原始像素，其输出是估计未来奖励的值函数。我们将我们的方法应用于街机学习环境中的七款 Atari 2600 游戏，无需调整架构或学习算法 ...

0 0 0 0 2024/03/17 arXiv:1312.5602v1 steven_yuding