我们总结了使用巨大的自动语音识别(ASR)模型的大量努力的结果,该模型使用包含大约一百万小时音频的大型,多样的未标记数据集进行了预训练。我们发现,即使对于具有数万个小时的标记数据的非常大的任务,预训练,自我培训和扩大模型大小的组合也大大提高了数据效率。特别是,在具有34K小时标记数据的ASR任务上,通过微调80亿个参数预训练的构象异构体模型,我们可以匹配最先进的(SOTA)性能(SOTA)的性能, ...
时间序列预测总是面临概念漂移的挑战,在这种挑战中,数据分布会随着时间的流逝而发展,从而导致预测模型性能下降。现有的解决方案基于在线学习,该解决方案不断组织最新的时间序列观察作为新的培训样本,并根据对最新数据的预测反馈更新模型参数。但是,他们忽略了一个关键问题:获得每个样本的地面真相的未来值,应延迟到预测范围之后 ...
我们研究了直觉物理学理解的出现,以通用的深度神经网络模型,该模型训练有素,可以预测自然视频中的掩盖区域。利用违反预测框架,我们发现经过训练的视频预测模型,可以预测在学会的表示空间中的结果,这表明了对各种直观物理属性的理解,例如对象的永久性和形状一致性。相比之下,像素空间和多模式大语言模型中的视频预测,这些模型通过文本进行推理,可以实现更接近机会的性能 ...
多模式大语言模型(MLLM)的最新进展已在各种多模式上下文中表现出显着的功能。但是,它们在机器人场景中的应用,特别是在长跑操纵任务中,揭示了重大局限性。这些局限性是由于当前缺乏三个必需机器人脑功能的MLLM出现的:计划能力,涉及将复杂的操作指令分解为可管理的子任务;负担能力,识别和解释交互对象的负担能力的能力;和轨迹预测,预见成功执行所需的完整操纵轨迹的远见 ...
扩散 Transformer 在图像和视频合成方面显示出显着的有效性,但代价是巨大的计算成本。为了解决这个问题,引入了特征缓存方法,通过缓存先前时间步中的特征并在接下来的时间步中重用它们来加速扩散变换器。然而,以前的缓存方法忽略了不同的 Token 对特征缓存表现出不同的敏感性,并且与其他 Token 相比,某些 Token 上的特征缓存可能会对整体生成质量造成 10$\times$ 的破坏 .. ...
了解来自多个文档集合的信息,尤其是具有视觉上丰富元素的文档的信息,对于文档的问题回答非常重要。本文介绍了Visdombench,这是第一个综合基准测试,旨在评估具有丰富多模式内容的多文档设置中的质量检查系统,包括表,图表和演示幻灯片。我们提出了visdomRag,这是一种新型的多式联运增强生成(RAG)方法,同时利用视觉和文本抹布,将强大的视觉检索能力与精致的语言推理相结合 ...
我们提出了一个原子模型,用于预测分层钼硫化物中掺杂电荷的分布(MOS $ _ {2} $)。该模型模仿每个离子周围的电荷作为净高斯空间分布的电荷加上诱导的偶极子,并能够预测在自sensissent方案中分层MOS $ _ {2} $中掺杂电荷的分布。单层MOS $ _ {2} $薄片中的掺杂电荷的概况与该电荷 - 偶极模型计算的片段与密度功能理论计算获得的电荷非常吻合 ...
体重平均的模型合并已成为深度学习的强大方法,能够在不进行微调或再培训的情况下增强模型性能。但是,解释其有效性的基本机制在很大程度上尚未探索。在本文中,我们从三个新颖的角度研究了这项技术,以提供更深入的见解,以了解如何以及为什么重量平均模型合并作用:(1)我们检查了通过学习模型权重的学习模型在几个数据集中的模型的可视化中所捕获的固有模式,表明这些权重经常编码结构化的结构性和可解释的模式; (2)我们 ...