在本文中,我们论证了值分布的根本重要性:强化学习代理收到的随机回报的分布。这与强化学习的常见方法形成对比,强化学习对这种回报或价值的期望进行建模。尽管有大量研究价值分布的文献,但到目前为止,它始终用于特定目的,例如实施风险意识行为 ...

0 0 0 0 2024/04/23 arXiv:1707.06887v1 steven_yuding

深度强化学习社区对DQN算法进行了多项独立改进。然而,尚不清楚这些扩展中哪些是互补的并且可以有效地组合。本文研究了 DQN 算法的六种扩展,并实证研究了它们的组合 ...

0 0 1 2 2024/04/18 arXiv:1710.02298v1 steven_yuding

经验回放让在线强化学习代理能够记住并重用过去的经验。在之前的工作中,经验转换是从重播内存中统一采样的。然而,这种方法只是以最初经历的相同频率重放转换,而不管其重要性如何 ...

0 0 1 1 2024/04/08 arXiv:1511.05952v4 steven_yuding

近年来,在强化学习中使用深度表示已经取得了许多成功。尽管如此,这些应用程序中的许多都使用传统的架构,例如卷积网络、LSTM 或自动编码器。在本文中,我们提出了一种用于无模型强化学习的新神经网络架构 ...

0 0 1 1 2024/04/08 arXiv:1511.06581v3 steven_yuding

众所周知,流行的 Q 学习算法会在某些条件下高估动作值。此前尚不清楚这种高估在实践中是否常见,是否会损害绩效,以及通常是否可以预防。在本文中,我们对所有这些问题做出了肯定的回答 ...

0 0 1 2 2024/04/01 arXiv:1509.06461v3 steven_yuding

深度强化学习有望彻底改变人工智能领域,并代表着朝着构建对视觉世界有更高层次理解的自主系统迈出的一步。目前,深度学习正在使强化学习能够扩展到以前难以解决的问题,例如学习直接从像素玩视频游戏。深度强化学习算法也应用于机器人技术,允许直接从现实世界中的摄像头输入中学习机器人的控制策略 ...

0 0 1 7 2024/03/26 arXiv:1708.05866v2 steven_yuding

深度强化学习是强化学习(RL)和深度学习的结合。这一研究领域已经能够解决以前机器无法完成的各种复杂的决策任务。因此,深度强化学习在医疗保健、机器人、智能电网、金融等领域开辟了许多新的应用 ...

0 0 0 0 2024/03/26 arXiv:1811.12560v2 steven_yuding

让应用程序和机器更加智能的愿望以及无需人类交互即可运行的愿望一直在推动神经网络、深度学习和其他机器学习技术的创新。尽管强化学习主要用于视频游戏,但最近的进步和多样化且强大的强化算法的开发使强化学习社区能够从玩视频游戏转向解决自动驾驶汽车等自主系统中复杂的现实问题、送货无人机和自动化机器人。了解应用程序的环境和算法的局限性对于选择合适的强化学习算法以有效地成功解决现有问题至关重要 ...

0 0 1 1 2024/03/26 arXiv:2209.14940v1 steven_yuding

我们概述了深度强化学习 (RL) 的最新令人兴奋的成就。我们讨论六个核心要素、六个重要机制和十二个应用。我们从机器学习、深度学习和强化学习的背景开始 ...

0 0 0 0 2024/03/26 arXiv:1701.07274v6 steven_yuding

本文回顾了深度强化学习中的探索技术。在解决稀疏奖励问题时,探索技术至关重要。在稀疏奖励问题中,奖励很少,这意味着代理不会经常通过随机行动找到奖励 ...

0 0 0 0 2024/03/26 arXiv:2205.00824v1 steven_yuding

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)