大型语言模型(LLM)的进步导致了各种服务领域的重大改进,包括搜索,建议和聊天机器人应用程序。但是,将最新的研究(SOTA)研究应用于工业环境提出了挑战,因为它需要保持灵活的对话能力,同时也严格遵守了特定的服务限制。由于LLM的概率性质,这可以看作是两个矛盾的要求 ...
0 0 0 2025/06/04 arXiv:2505.23006v1 waterfall666
大型视觉模型(LVLM)在多模式理解方面表现出色,但由于多余的视力 Token 而遭受高度计算成本。现有的修剪方法通常依赖于单层注意力评分来排名和修剪冗余的视觉 Token 来解决此效率低下。但是,由于 Token 与层之间的相互作用很复杂,因此提出了一个基本的问题:这是一个简单的单层标准,足以识别冗余?为了回答这个问题,我们从基本的角度重新考虑了冗余视觉 Token 的出现:信息流,该信息流通过 ...
0 0 0 2025/06/04 arXiv:2505.19536v1 lizijian9630
最近的大型视觉模型(LVLM)通过结合了细粒度的视觉感知和编码,具有先进的多模式理解。但是,由于视觉 Token 序列较长,这种方法会产生巨大的计算成本,这对实时部署构成了挑战。为了减轻这种情况,先前的研究已经探索了在视觉编码器的输出层或语言模型的早期层次上修剪不重要的视觉 Token  ...
0 0 0 2025/06/04 arXiv:2505.22654v1 lizijian9630
随着大语言模型的日益普及,模型评估中的数据污染变得越来越普遍。它允许模型通过记忆“作弊”而不是显示真正的功能。因此,污染分析已成为可靠模型评估的关键部分,以验证结果 ...
0 0 0 2025/06/04 arXiv:2310.17589v3 13530361597
在 Transformer 体系结构中, Token \ textemdash离散单元从原始数据\ textemdash衍生而成,是通过将输入分割为固定长度的块来形成的。然后将每个 Token 映射到一个嵌入式中,从而可以在保留输入的基本信息的同时进行并行注意计算。由于 Transformer 自发机制的二次计算复杂性, Token 还原主要被用作效率策略 ...
0 0 0 2025/06/04 arXiv:2505.18227v1 lizijian9630
尽管现有的统一模型在视觉理解和文本到图像生成方面表现出色,但他们的模型在探索图像感知和操纵任务方面受到限制,这些任务迫切需要广泛的应用程序。最近,OpenAI发布了其强大的GPT-4O图像模型,以实现全面的图像感知和操纵,实现表达能力并吸引社区利益。通过观察我们精心构造的实验中GPT-4O图像的性能,我们推断出语义编码器而不是VAE提取的GPT-4O图像杠杆功能,而VAE在许多图像操作模型中被认为 ...
0 0 0 2025/06/04 arXiv:2506.03147v1 Lewandofski
语言本质上是一个受语法规则控制的复杂的人类表达系统。开发强大的人工智能算法来理解和掌握语言提出了重大挑战。作为一种主要方法,语言建模在过去二十年中被广泛研究用于语言理解和生成,从统计语言模型发展到神经语言模型 ...
0 0 0 2025/06/04 arXiv:2303.18223v16 zhangzhe
基于检索的大型语言模型(LLMS)在财务中广泛使用,以实现其在知识密集型任务上的出色表现。但是,标准化文件(例如 ...
0 0 0 2025/06/04 arXiv:2505.20368v2 kanli

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)