基于记忆的神经网络利用长期记住信息的能力来对时间数据进行建模。然而,目前尚不清楚他们是否也有能力利用他们记住的信息进行复杂的关系推理。在这里,我们首先确认我们的直觉,即标准内存架构可能难以完成大量涉及理解实体连接方式的任务——即 ...

0 0 0 0 2024/06/15 arXiv:1806.01822v2 mosymxl

表示学习旨在以学习表示形式揭示观察到的数据的某些方面,该表示适合分类等下游任务。例如,2D 图像的良好表示可能是仅描述全局结构并丢弃有关详细纹理的信息。在本文中,我们提出了一种简单但原则性的方法,通过将变分自编码器(VAE)与神经自回归模型(例如 RNN、MADE 和 PixelRNN/CNN)相结合来学习此类全局表示 ...

0 0 0 0 2024/06/15 arXiv:1611.02731v2 mosymxl

关系推理是一般智能行为的核心组成部分,但事实证明神经网络很难学习。在本文中,我们描述了如何使用关系网络(RN)作为简单的即插即用模块来解决从根本上取决于关系推理的问题。我们在三项任务上测试了 RN 增强网络:使用名为 CLEVR 的挑战性数据集进行视觉问答,我们在该数据集上实现了最先进的超人类表现;使用 bAbI 任务套件进行基于文本的问答;以及关于动态物理系统的复杂推理 ...

0 0 0 0 2024/06/15 arXiv:1706.01427v1 mosymxl

深度残差网络已经成为一系列极深的架构,显示出令人信服的准确性和良好的收敛行为。在本文中,我们分析了残差构建块背后的传播公式,这表明当使用恒等映射作为跳过连接和添加后激活时,前向和后向信号可以直接从一个块传播到任何其他块。一系列消融实验支持了这些身份映射的重要性 ...

0 0 0 0 2024/06/15 arXiv:1603.05027v3 mosymxl

最先进的语义分割模型基于最初为图像分类而设计的卷积网络的改编。然而,密集预测和图像分类在结构上是不同的。在这项工作中,我们开发了一种新的卷积网络模块,专为密集预测而设计 ...

0 0 0 0 2024/06/15 arXiv:1511.07122v3 mosymxl

扩展深度神经网络容量被认为是提高多种不同机器学习任务模型质量的有效方法。在许多情况下,将模型容量提高到超出单个加速器的内存限制需要开发特殊的算法或基础设施。这些解决方案通常是特定于体系结构的,并且不会转移到其他任务 ...

0 0 0 0 2024/06/15 arXiv:1811.06965v5 mosymxl

由于循环神经网络的复兴,序列已成为监督学习中的一等公民。现在可以使用序列到序列 (seq2seq) 框架来制定许多需要从观察序列进行映射或映射到观察序列的复杂任务,该框架采用链式法则来有效表示序列的联合概率。然而,在许多情况下,可变大小的输入和/或输出可能不会自然地表达为序列 ...

0 0 0 0 2024/06/15 arXiv:1511.06391v4 mosymxl

我们引入了一种新的神经架构来学习输出序列的条件概率,其中的元素是与输入序列中的位置相对应的离散标记。此类问题无法通过序列到序列和神经图灵机等现有方法轻松解决,因为输出的每个步骤中的目标类数量取决于输入的长度,而输入的长度是可变的。诸如对可变大小序列进行排序的问题以及各种组合优化问题都属于此类 ...

0 0 0 0 2024/06/15 arXiv:1506.03134v2 mosymxl

我们提出了一种用于具有长短期记忆 (LSTM) 单元的循环神经网络 (RNN) 的简单正则化技术。 Dropout 是最成功的神经网络正则化技术,但它不适用于 RNN 和 LSTM。在本文中,我们展示了如何正确地将 dropout 应用于 LSTM,并证明它可以大大减少各种任务的过度拟合 ...

0 0 0 0 2024/06/15 arXiv:1409.2329v5 mosymxl

离线偏好优化是增强和控制大语言模型(LLM)输出质量的关键方法。通常,偏好优化被视为使用手动设计的凸损失函数的离线监督学习任务。虽然这些方法基于理论见解,但它们本质上受到人类创造力的限制,因此可能的损失函数的巨大搜索空间仍在探索中 ...

0 0 0 0 2024/06/15 arXiv:2406.08414v1 mosymxl

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)