开发聊天机器人作为个人伴侣长期以来一直是人工智能研究人员的目标。大型语言模型 (LLM) 的最新进展为赋予聊天机器人拟人化语言功能提供了实用的解决方案。然而,要让聊天机器人能够充当伴侣,需要的不仅仅是 LLM  ...
0 0 0 2025/10/13 arXiv:2311.18251v1 alex666
本报告介绍了一个新的多模式模型系列 Gemini,它在图像、音频、视频和文本理解方面表现出卓越的能力。 Gemini 系列包括 Ultra、Pro 和 Nano 尺寸,适用于从复杂推理任务到设备内存受限用例的各种应用。对广泛基准的评估表明,我们功能最强大的 Gemini Ultra 模型在 32 个基准中的 30 个中提高了最先进水平 - 特别是它是第一个在经过充分研究的考试基准 MMLU 上实现 ...
0 0 0 2025/10/12 arXiv:2312.11805v5 yuhan
机器学习模型可能会无意中记住敏感、未经授权或恶意的数据,从而带来隐私泄露、安全漏洞和性能下降的风险。为了解决这些问题,机器去学习已经成为一种关键技术,可以有选择地消除特定训练数据点对训练模型的影响。本文对机器取消学习的解决方案进行了全面的分类和分析 ...
0 0 0 2025/10/12 arXiv:2308.07061v3 嘻嘻嘻
基于 Transformer 的网络通过利用空间或通道自注意力,在图像去雨等低级视觉任务中取得了出色的性能。然而,不规则的降雨模式和复杂的几何重叠对单范式架构提出了挑战,需要一个统一的框架来整合互补的全局局部和空间通道表示。为了解决这个问题,我们提出了一种新颖的跨范式表示和对齐转换器(CPRAformer) ...
0 0 0 2025/10/12 arXiv:2504.16455v1 zw
随着大型语言模型(LLM)的广泛使用,系统地理解它们是提高其安全性和充分发挥其潜力的关键。尽管许多模型使用人类反馈强化学习(RLHF)等技术进行对齐,但它们仍然容易受到越狱攻击。一些现有的对抗性攻击方法搜索可能越狱目标模型的离散标记,而其他方法则尝试优化由模型词汇表的标记表示的连续空间 ...
0 0 0 2025/10/12 arXiv:2505.09820v1 KRyan
直接生成项目标识符的生成推荐已成为推荐系统的一种有前途的范例。然而,它的潜力从根本上受到对纯粹自回归训练的依赖的限制。这种方法仅仅专注于预测下一个项目,而忽略了用户交互历史的丰富内部结构,因此无法掌握潜在的意图 ...
0 0 0 2025/10/12 arXiv:2509.23649v1 dou123dou
大多数现有的多模态方法使用单独的主干来进行基于自回归的离散文本生成和基于扩散的连续视觉生成,或者使用相同的主干来离散化视觉数据以将自回归用于文本和视觉生成。在本文中,我们建议研究一个简单的想法:共享一个 Transformer 用于自回归和扩散。可行性主要来自两个方面:(i) Transformer 成功应用于视觉生成的扩散,(ii) 自回归和扩散的 Transformer 训练非常相似,区别仅在 ...
0 0 0 2025/10/12 arXiv:2409.16280v1 yuhan
查询重写(QR)是电子商务搜索中的一种关键技术,可以解决用户查询和产品描述之间的词汇差距,以提高搜索性能。现有的QR方法通常分为两类:利用大语言模型(LLM)的判别模型和生成方法。判别模型通常与自然语言的理解斗争,并在重写方面具有有限的灵活性,而生成的LLM,尽管产生了高质量的重写,在线环境中面临高推理潜伏期和成本 ...
0 0 0 2025/10/12 arXiv:2501.18056v2 15858165688

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)