大型语言模型 (LLM) 表现出了令人印象深刻的语言理解和生成能力,使它们能够回答各个领域的广泛问题。然而,这些模型并非完美无缺,并且经常产生包含错误或错误信息的响应。这些错误通常被称为幻觉,使得 LLM 在许多情况下不可靠,甚至无法使用 ...
本研究旨在设计一种环境感知文本转语音 (TTS) 系统,该系统可以生成适合特定声学环境的语音。它还出于在 TTS 系统开发中利用来自异构源的大量语音音频数据的愿望。关键思想是将语音音频中的声学环境建模为数据可变性的一个因素,并将其作为基于神经网络的语音合成过程中的条件 ...
密集视频字幕的研究受到了极大的关注,其目的是自动定位未修剪视频中的所有事件并为其添加字幕。一些研究介绍了通过将密集视频字幕设计为事件定位和事件字幕的多任务问题来考虑任务间关系的方法。然而,由于缺乏语义内容,仅使用视觉输入来解决这两个任务具有挑战性 ...
生成信息检索包括生成文档检索(GDR)和接地答案生成(GAR)两大任务,在信息检索和自然语言处理领域获得了极大的关注。 GDR 和 GAR 的现有方法依赖于单独的检索和阅读器模块,这阻碍了同时优化。为了克服这个问题,我们提出了 \textbf{UniGen},这是一个用于检索和问答的 \textbf{Uni}fied \textbf{Gen} 生成框架,它利用大型语言模型的功能将这两个任务集成到一 ...
尽管神经辐射场(NeRF)在物体和小空间有限区域上展示了令人印象深刻的视图合成结果,但它们在“无界”场景中表现不佳,在“无界”场景中,相机可能指向任何方向,内容可能存在于任何距离。在这种情况下,现有的类似 NeRF的模型通常会产生模糊或低分辨率的渲染训练(由于附近速度和近距离物体的细节和比例不平衡),很慢,并且由于任务的固有模糊性可能会出现伪影。从一个小组图像重建我们提出了mip-NeRF(一种解 ...
使用参考语音的表达性文本转语音(TTS)已被广泛研究以合成自然语音,但在获得良好表征的风格和提高模型泛化能力方面存在局限性。在这项研究中,我们提出了基于扩散的表达 TTS (DEX-TTS),这是一种声学模型,专为基于参考的语音合成而设计,具有增强的风格表示。基于通用扩散 TTS 框架,DEX-TTS 包括编码器和适配器来处理从参考语音中提取的风格 ...
视频问答 (VideoQA) 从最近的大型语言模型 (LLM) 的扩展中得到了显着的进步。关键思想是将视觉信息转换到语言特征空间,以便充分发挥 LLM 的能力。现有的 VideoQA 方法通常采用两种范例:(1)学习跨模式对齐,(2)使用现成的字幕模型来描述视觉数据 ...
我们介绍 EnerVerse,这是一个专门为机器人操作任务而设计的体现未来空间生成的综合框架。 EnerVerse 无缝集成了用于块内空间建模的卷积和双向注意机制,确保低级一致性和连续性。认识到视频数据中固有的冗余,我们提出了稀疏内存上下文与分块单向生成范例相结合,以能够生成无限长的序列 ...