本文对长格式上的一些端到端ASR模型进行了概述和评估。我们根据其核心架构研究了三类自动语音识别(ASR)模型:(1)格式模型,(2)妊娠模型和启发的视觉模型以及(3)带有焦点的视觉模型。我们每个从类别中选择一个ASR模型,并在各种长音频基准测试(Earnings-21和22、CORAAL和TED-LIUM3) )上评估每个模型的字错误率、最大音频长度和实时因子... ...
在本文中,我们的目标是提高 SwiftBrush(一种著名的单步文本到图像扩散模型)的性能,使其与多步稳定扩散模型具有竞争力。首先,我们探讨了 SwiftBrush 和 SD Turbo 之间的质量多样性权衡:前者在图像多样性方面表现出色,而后者在图像质量方面表现出色。这一观察结果促使我们对训练方法进行修改,包括更好的权重初始化和高效的 LoRA 训练 ...
GPT-4o 卓越的多模态功能和交互体验凸显了其在实际应用中的必要性,但开源模型很少在这两个领域都表现出色。在本文中,我们介绍了VITA,这是第一个开源的多模态大语言模型(MLLM),擅长同时处理和分析视频、图像、文本和音频模态,同时具有先进的多模态交互体验。我们从Mixtral 8x7B作为语言基础开始,扩大其中文词汇量,然后进行双语教学调整 ...
生物学中自然语言处理(NLP)的进步模型解释了复杂生物医学文献的能力。传统模型通常难以应对该领域的复杂性且特定于语言领域。在本文中,我们提出了BioMamba,这是一种专为生物医学文献挖掘和设计的预训练模型... ...
通过结合大规模预训练的 Seq2Seq 模型,序列生成在最近的信息提取工作中展现了良好的性能。本文研究了在关系提取中使用序列生成的优点,发现以关系名称或同义词作为生成目标,它们的文本语义以及它们之间的相关性(就单词序列模式而言)会影响模型性能。然后,我们提出了带有标签增强的关系提取(RELA),这是一种具有自动标签增强功能的 Seq2Seq 模型 ...
对话是最自然的人机交互(HCI)方式。语音语言模型(SLM)的最新进展显着增强了基于语音的会话人工智能。然而,这些模型仅限于循环制对话,缺乏与人类实时语音场景交互的能力,例如,当生成的内容不充分时会被打断... ...
扩展大型语言模型(LLM)的研究主要集中在模型参数和训练数据大小上,忽视了词汇量大小的作用。直观上,更大的词汇表可以通过用更少的标记表示句子来实现更有效的标记化,但它们也增加了稀有标记表示不足的风险。我们通过在具有各种词汇配置的多达 500B 字符上训练从 33M 到 3B 参数的模型,研究词汇大小如何影响 LLM 缩放法则 ...
大型语言模型~(LLM)在高资源语言任务中表现出卓越的翻译能力,但其在低资源语言中的性能因预训练期间多语言数据不足而受到阻碍。为了解决这个问题,我们投入了 35,000 个 A100-SXM4-80GB GPU 时间对 LLaMA 系列模型进行广泛的多语言持续预训练,从而实现了 100 多种语言的翻译支持。通过对词汇扩展和数据增强等训练策略的全面分析,我们开发了 LLaMAX ...
我们提出了一种仅使用神经网络和语言模型来执行首次通过大词汇量连续语音识别的方法。深度神经网络声学模型现在在基于 HMM 的语音识别系统中很常见,但构建此类系统是一项复杂的、特定于领域的任务。最近的工作证明了通过直接从音频预测转录文本来放弃 HMM 序列建模框架的可行性 ...
我们引入了高效单调多头注意力(EMMA),这是一种最先进的同步翻译模型,具有数值稳定且无偏的单调对齐估计。此外,我们提出了改进的训练和推理策略,包括离线翻译模型的同步微调和单调对齐方差的减少。实验结果表明,所提出的模型在西班牙语和英语翻译任务上的同步语音到文本翻译中达到了最先进的性能 ...