意图分类和槽填充是自然语言理解的两个关键任务。传统上,这两项任务被认为是独立进行的。然而,最近,意图分类和槽填充的联合模型已经实现了最先进的性能,并证明这两个任务之间存在很强的关系 ...
0 0 0 2024/07/22 arXiv:2101.08091v3 Shmily
本报告介绍了 Qwen2 系列,这是我们大型语言模型和大型多模态模型的最新成员。我们发布了一整套基础和指令调整的语言模型,参数范围从 0.5 到 720 亿,具有密集模型和专家混合模型 ...
0 0 0 2024/07/22 arXiv:2407.10671v3 SgangX
在本文中,我们通过执行蒙版视觉文本预测,提出了 StrucTexTv2,一种有效的文档图像预训练框架。它由两个自监督预训练任务组成:基于文本区域级图像掩蔽的掩蔽图像建模和掩蔽语言建模。该方法根据文本单词的边界框坐标随机屏蔽一些图像区域 ...
0 0 0 2024/07/22 arXiv:2303.00289v1 fclong
文本后门攻击给大型语言模型 (LLM) 带来了巨大的安全风险。它在训练阶段将精心选择的触发器嵌入到受害者模型中,并使模型错误地预测包含与某个类别相同的触发器的输入。先前的后门防御方法主要针对基于特殊 Token 的触发器,而没有充分解决基于语法的触发器 ...
0 0 0 2024/07/22 arXiv:2407.04179v1 yotta
主要的自动驾驶解决方案配备了广泛的传感器,在安全系统设计方面变得更加模块化。尽管这些传感器已经奠定了坚实的基础,但迄今为止大多数量产解决方案仍处于L2阶段。其中,我们看到了这个http URL,声称一款999美元的售后设备,内部装有单个摄像头和电路板,具有处理L2场景的能力 ...
0 0 0 2024/07/22 arXiv:2206.08176v1 hao0o0
大型语言模型越来越多地根据人类产生的所有数据进行训练。由于预训练或微调数据集的潜在污染,许多人对公共基准的可信度表示担忧。虽然大多数数据净化工作都应用字符串匹配(例如 ...
0 0 0 2024/07/22 arXiv:2311.04850v2 Hollowyuk
在多模态语言模型领域,大多数方法都建立在类似于LLaVA的架构上。这些模型使用单层 ViT 功能作为视觉提示,将其与文本标记一起直接输入到语言模型中。然而,当处理长序列的视觉信号或视频等输入时,语言模型的自注意力机制可能会导致巨大的计算开销 ...
0 0 0 2024/07/22 arXiv:2407.14177v1 bage
Mixture-of-Experts (MoE) 作为扩展大型语言模型 (LLM) 的有前途的框架而越来越受欢迎。然而,在大规模环境中从头开始训练 MoE 仍然面临数据匮乏和不稳定的问题。受此限制的启发,我们研究从现有的密集大型语言模型构建 MoE 模型 ...
0 0 0 2024/07/22 arXiv:2406.16554v1 waterfall666

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)