xx的文档

xx 南京

生命的统一性和多样性

Investigating End-to-End ASR Architectures for Long Form Audio Transcription

本文对长格式上的一些端到端ASR模型进行了概述和评估。我们根据其核心架构研究了三类自动语音识别（ASR）模型：（1）格式模型，（2）妊娠模型和启发的视觉模型以及（3）带有焦点的视觉模型。我们每个从类别中选择一个ASR模型，并在各种长音频基准测试（Earnings-21和22、CORAAL和TED-LIUM3））上评估每个模型的字错误率、最大音频长度和实时因子... ...

0 0 1 1 2024/09/02 arXiv:2309.09950v2 xx

SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher

在本文中，我们的目标是提高 SwiftBrush（一种著名的单步文本到图像扩散模型）的性能，使其与多步稳定扩散模型具有竞争力。首先，我们探讨了 SwiftBrush 和 SD Turbo 之间的质量多样性权衡：前者在图像多样性方面表现出色，而后者在图像质量方面表现出色。这一观察结果促使我们对训练方法进行修改，包括更好的权重初始化和高效的 LoRA 训练 ...

0 0 1 1 2024/08/28 arXiv:2408.14176v1 xx

VITA: Towards Open-Source Interactive Omni Multimodal LLM

GPT-4o 卓越的多模态功能和交互体验凸显了其在实际应用中的必要性，但开源模型很少在这两个领域都表现出色。在本文中，我们介绍了VITA，这是第一个开源的多模态大语言模型（MLLM），擅长同时处理和分析视频、图像、文本和音频模态，同时具有先进的多模态交互体验。我们从Mixtral 8x7B作为语言基础开始，扩大其中文词汇量，然后进行双语教学调整 ...

0 0 1 21 2024/08/14 arXiv:2408.05211v1 xx

BioMamba: A Pre-trained Biomedical Language Representation Model Leveraging Mamba

生物学中自然语言处理（NLP）的进步模型解释了复杂生物医学文献的能力。传统模型通常难以应对该领域的复杂性且特定于语言领域。在本文中，我们提出了BioMamba，这是一种专为生物医学文献挖掘和设计的预训练模型... ...

0 0 0 0 2024/11/28 arXiv:2408.02600v1 xx

Sequence Generation with Label Augmentation for Relation Extraction

通过结合大规模预训练的 Seq2Seq 模型，序列生成在最近的信息提取工作中展现了良好的性能。本文研究了在关系提取中使用序列生成的优点，发现以关系名称或同义词作为生成目标，它们的文本语义以及它们之间的相关性（就单词序列模式而言）会影响模型性能。然后，我们提出了带有标签增强的关系提取（RELA），这是一种具有自动标签增强功能的 Seq2Seq 模型 ...

0 0 0 0 2024/08/10 arXiv:2212.14266v2 xx

Language Model Can Listen While Speaking

对话是最自然的人机交互（HCI）方式。语音语言模型（SLM）的最新进展显着增强了基于语音的会话人工智能。然而，这些模型仅限于循环制对话，缺乏与人类实时语音场景交互的能力，例如，当生成的内容不充分时会被打断... ...

0 0 2 35 2024/10/10 arXiv:2408.02622v1 xx

Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

扩展大型语言模型（LLM）的研究主要集中在模型参数和训练数据大小上，忽视了词汇量大小的作用。直观上，更大的词汇表可以通过用更少的标记表示句子来实现更有效的标记化，但它们也增加了稀有标记表示不足的风险。我们通过在具有各种词汇配置的多达 500B 字符上训练从 33M 到 3B 参数的模型，研究词汇大小如何影响 LLM 缩放法则 ...

0 0 0 0 2024/07/20 arXiv:2407.13623v1 xx

LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages

大型语言模型~（LLM）在高资源语言任务中表现出卓越的翻译能力，但其在低资源语言中的性能因预训练期间多语言数据不足而受到阻碍。为了解决这个问题，我们投入了 35,000 个 A100-SXM4-80GB GPU 时间对 LLaMA 系列模型进行广泛的多语言持续预训练，从而实现了 100 多种语言的翻译支持。通过对词汇扩展和数据增强等训练策略的全面分析，我们开发了 LLaMAX ...

0 0 1 2 2024/07/18 arXiv:2407.05975v1 xx

First-Pass Large Vocabulary Continuous Speech Recognition using Bi-Directional Recurrent DNNs

我们提出了一种仅使用神经网络和语言模型来执行首次通过大词汇量连续语音识别的方法。深度神经网络声学模型现在在基于 HMM 的语音识别系统中很常见，但构建此类系统是一项复杂的、特定于领域的任务。最近的工作证明了通过直接从音频预测转录文本来放弃 HMM 序列建模框架的可行性 ...

0 0 0 0 2024/07/18 arXiv:1408.2873v2 xx

Efficient Monotonic Multihead Attention

我们引入了高效单调多头注意力（EMMA），这是一种最先进的同步翻译模型，具有数值稳定且无偏的单调对齐估计。此外，我们提出了改进的训练和推理策略，包括离线翻译模型的同步微调和单调对齐方差的减少。实验结果表明，所提出的模型在西班牙语和英语翻译任务上的同步语音到文本翻译中达到了最先进的性能 ...

0 1 1 1 2024/07/17 arXiv:2312.04515v1 xx