扩展大型语言模型(LLM)的研究主要集中在模型参数和训练数据大小上,忽视了词汇量大小的作用。直观上,更大的词汇表可以通过用更少的标记表示句子来实现更有效的标记化,但它们也增加了稀有标记表示不足的风险。我们通过在具有各种词汇配置的多达 500B 字符上训练从 33M 到 3B 参数的模型,研究词汇大小如何影响 LLM 缩放法则 ...

0 0 0 0 2024/07/20 arXiv:2407.13623v1 xx

大型语言模型~(LLM)在高资源语言任务中表现出卓越的翻译能力,但其在低资源语言中的性能因预训练期间多语言数据不足而受到阻碍。为了解决这个问题,我们投入了 35,000 个 A100-SXM4-80GB GPU 时间对 LLaMA 系列模型进行广泛的多语言持续预训练,从而实现了 100 多种语言的翻译支持。通过对词汇扩展和数据增强等训练策略的全面分析,我们开发了 LLaMAX ...

0 0 1 2 2024/07/18 arXiv:2407.05975v1 xx

我们提出了一种仅使用神经网络和语言模型来执行首次通过大词汇量连续语音识别的方法。深度神经网络声学模型现在在基于 HMM 的语音识别系统中很常见,但构建此类系统是一项复杂的、特定于领域的任务。最近的工作证明了通过直接从音频预测转录文本来放弃 HMM 序列建模框架的可行性 ...

0 0 0 0 2024/07/18 arXiv:1408.2873v2 xx

我们引入了高效单调多头注意力(EMMA),这是一种最先进的同步翻译模型,具有数值稳定且无偏的单调对齐估计。此外,我们提出了改进的训练和推理策略,包括离线翻译模型的同步微调和单调对齐方差的减少。实验结果表明,所提出的模型在西班牙语和英语翻译任务上的同步语音到文本翻译中达到了最先进的性能 ...

0 1 1 1 2024/07/17 arXiv:2312.04515v1 xx

多模态大型语言模型(MLLM)最近已成为学术界和工业界的一个重要焦点。尽管他们精通一般的多模式场景,但视觉环境中的数学问题解决能力仍未得到充分探索。我们确定了 MLLM 中需要改进的三个关键领域:数学图表的视觉编码、图表语言对齐和数学推理技能 ...

0 0 0 0 2024/07/12 arXiv:2407.08739v1 xx

我们提出了 Adam-mini,这是一种优化器,其性能与 AdamW 相当或更好,并且内存占用减少了 45% 到 50%。 Adam-mini 通过减少 Adam 中的学习率资源来减少内存(即 ...

0 0 0 0 2024/07/06 arXiv:2406.16793v5 xx

我们推出了 InternLM-XComposer-2.5 (IXC-2.5),这是一种支持长上下文输入和输出的多功能大视觉语言模型 ...

0 0 0 0 2024/07/05 arXiv:2407.03320v1 xx

在本文中,我们提出了一种开源、生产优先、生产就绪的语音识别工具包,称为 WeNet,其中实现了一种新的两遍方法,以统一流式和非流式端到端 (E2E) 语音识别。单一模型。 WeNet 的主要动机是缩小端到端语音识别模型的研究和生产之间的差距。 WeNet 提供了一种在多个现实场景中交付 ASR 应用程序的有效方法,这是与其他开源端到端语音识别工具包的主要区别和优势 ...

0 0 1 15 2024/07/04 arXiv:2102.01547v5 xx

我们提出了一种新颖的角色驱动数据合成方法,该方法利用大型语言模型(LLM)中的各种视角来创建多样化的合成数据。为了大规模地充分利用这种方法,我们引入了 Persona Hub——一个根据网络数据自动整理的 10 亿个不同角色的集合。这 10 亿个人角色(约占世界总人口的 13%)作为世界知识的分布式载体,可以利用 LLM 中包含的几乎所有视角,从而促进为各种场景大规模创建多样化的合成数据 ...

0 0 0 0 2024/07/03 arXiv:2406.20094v1 xx

由于准确性需要广泛且精确的推理链,数学推理对大型语言模型 (LLM) 提出了重大挑战。确保每个推理步骤的正确性至关重要。为了解决这个问题,我们的目标是通过学习人类反馈来增强 LLM 的稳健性和真实性 ...

0 0 0 0 2024/06/28 arXiv:2406.18629v1 xx

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)