在这项工作中,我们介绍和评估Selma是一种针对虚拟助手交互的语言语言模型,该模型将音频和文本整合为大型语言模型(LLM)的输入。 Selma旨在处理与单个端到端模型中同时与虚拟助手相互作用相关的三个主要和两个辅助任务。我们采用低级适应模块来对音频编码器和LLM进行参数效率训练 ...
0 0 0 2025/05/09 arXiv:2501.19377v2 zzy_nthu
大型语言模型(LLMS)具有出色的功能,但其高推理成本限制了更广泛的采用。同时增加参数计数可以提高准确性,但它也扩大了最新功能和实际部署性之间的差距。我们提出难题,这是一种硬件感知框架,可以在保留其功能的同时加速LLM的推断 ...
0 0 0 2025/05/09 arXiv:2411.19146v4 odenkkk
我们介绍了Llama-Nemotron系列模型,这是一个开放的异构推理模型家族,可提供出色的推理能力,推理效率和企业使用的开放许可。这个家庭有三种尺寸 - 纳米(8b),Super(49b)和Ultra(253b) - 并与最先进的推理模型(例如DeepSeek-R1)一起竞争,同时提供了出色的推理吞吐量和记忆效率。在本报告中,我们讨论了这些模型的培训程序,这些模型需要使用Llama 3模型的神经 ...
0 0 0 2025/05/09 arXiv:2505.00949v2 odenkkk
大型语言模型的第一代 - 可能被称为生成AI(2020-2023)的“ ACT I”  - 通过大规模参数和数据缩放取得了显着的成功,但表现出了基本的限制,例如知识潜伏期,浅薄的推理和受约束的认知过程。在这个时代,迅速的工程成为我们的主要界面,并通过自然语言实现了对话级别的交流。现在,我们目睹了“第二幕”(2024年至今)的出现,其中模型正在通过测试时间缩放技术从知识回溯系统(在潜在空间中)过渡到 ...
0 0 0 2025/05/09 arXiv:2504.13828v3 zhangxinhao
推理路径是知识图完成(KGC)中可靠的信息,其中算法可以找到实体之间实际关系的强大线索。但是,在实际应用中,很难确保所有候选实体都存在计算负担得起的路径。根据我们的观察,当缺乏路径时,预测准确性显着下降 ...
0 0 0 2025/05/09 arXiv:2505.03285v1 chaojijiayou
我们贡献了一种无监督方法,可以有效地从原始观察中学习,并将其潜在空间分解为内容和风格表示。与大多数依赖于特定领域标签和知识的解缠算法不同,我们的方法基于对内容和​​风格之间的领域一般统计差异的洞察——样本中不同片段之间的内容变化更大,但在数据样本之间保持不变的词汇表,而风格在样本内保持相对不变,但在不同样本之间表现出更显着的变化。我们将这种归纳偏差集成到编码器-解码器架构中,并以 V3(方差与不变 ...
0 0 0 2025/05/09 arXiv:2407.03824v3 uu2222
本文调查了一个新的但具有挑战性的问题,称为反向$ k $  - 毫米最大的内部产品搜索(r $ k $ mips)。给定查询(项目)向量,一组项目向量和一组用户向量,R $ K $ MIPS的问题旨在找到一组用户向量,其内部产品带有查询矢量是查询和项目向量中最大的$ K $之一。我们提出了第一个次级时间算法,i ...
0 0 0 2025/05/09 arXiv:2211.12751v1 Daenerays
尽管在纠正大型语言模型(LLMS)的输出方面已经取得了快速的进展,但由于其指定的反馈目标和更正方式,这些方法不能很好地应用于关系提取(RE)任务。为了解决这个问题,我们为RE提出了一个新颖的自动反馈框架,该框架提出了一个基本原理主管来验证基本原理,并提供了重新选择的演示作为反馈以纠正初始预测。具体而言,我们首先设计了一种因果干预和观察方法,以收集偏见/无偏见的理由来进行对比培训理由主管 ...
0 0 0 2025/05/09 arXiv:2412.07289v2 gfsadasaf

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)