最先进的语义分割模型基于最初为图像分类而设计的卷积网络的改编。然而,密集预测和图像分类在结构上是不同的。在这项工作中,我们开发了一种新的卷积网络模块,专为密集预测而设计 ...
0 0 0 2024/06/15 arXiv:1511.07122v3 mosymxl
扩展深度神经网络容量被认为是提高多种不同机器学习任务模型质量的有效方法。在许多情况下,将模型容量提高到超出单个加速器的内存限制需要开发特殊的算法或基础设施。这些解决方案通常是特定于体系结构的,并且不会转移到其他任务 ...
0 0 0 2024/06/15 arXiv:1811.06965v5 mosymxl
由于循环神经网络的复兴,序列已成为监督学习中的一等公民。现在可以使用序列到序列 (seq2seq) 框架来制定许多需要从观察序列进行映射或映射到观察序列的复杂任务,该框架采用链式法则来有效表示序列的联合概率。然而,在许多情况下,可变大小的输入和/或输出可能不会自然地表达为序列 ...
0 0 0 2024/06/15 arXiv:1511.06391v4 mosymxl
我们引入了一种新的神经架构来学习输出序列的条件概率,其中的元素是与输入序列中的位置相对应的离散标记。此类问题无法通过序列到序列和神经图灵机等现有方法轻松解决,因为输出的每个步骤中的目标类数量取决于输入的长度,而输入的长度是可变的。诸如对可变大小序列进行排序的问题以及各种组合优化问题都属于此类 ...
0 0 0 2024/06/15 arXiv:1506.03134v2 mosymxl
我们提出了一种用于具有长短期记忆 (LSTM) 单元的循环神经网络 (RNN) 的简单正则化技术。 Dropout 是最成功的神经网络正则化技术,但它不适用于 RNN 和 LSTM。在本文中,我们展示了如何正确地将 dropout 应用于 LSTM,并证明它可以大大减少各种任务的过度拟合 ...
0 0 0 2024/06/15 arXiv:1409.2329v5 mosymxl
在这项工作中,我们研究使用大型语言模型(LLM)来检测社交媒体上的谣言。然而, LLM 很难对包含新闻内容和大量评论的社交媒体上的整个传播信息进行推理,因为 LLM 可能无法集中精力在复杂的传播信息中的关键线索上,在面对海量和大量的信息时难以进行推理。冗余信息。因此,我们提出了一种由 LLM 授权的谣言检测(LeRuD)方法,其中我们设计提示来教 LLM 对新闻和评论中的重要线索进行推理,并将整个 ...
0 0 0 2024/06/15 arXiv:2402.03916v2 Majoryyy
离线偏好优化是增强和控制大语言模型(LLM)输出质量的关键方法。通常,偏好优化被视为使用手动设计的凸损失函数的离线监督学习任务。虽然这些方法基于理论见解,但它们本质上受到人类创造力的限制,因此可能的损失函数的巨大搜索空间仍在探索中 ...
0 0 0 2024/06/15 arXiv:2406.08414v1 mosymxl
异构图神经网络(HGNN)具有将异构图的丰富结构和语义信息嵌入到节点表示中的强大能力。现有的 HGNN 在同构图上继承了图神经网络(GNN)的许多机制,特别是注意力机制和多层结构。这些机制带来了过度的复杂性,但很少有人研究它们在异构图上是否真正有效 ...
0 0 0 2024/06/15 arXiv:2207.02547v3 张嘉雯

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)