随着高级智能从模块化组件与低级智能的结合出现,许多作品结合了集体智能的大型语言模型(LLMS)。通过在LLM之间建立通信来实现此类组合。尽管当前的系统主要通过自然语言促进这种交流,但本文提出了一种新颖的LLM之间直接密集矢量通信的范式 ...
0 0 0 2025/06/04 arXiv:2505.12741v1 waterfall666
Vision Transformer(VIT)已成为现代计算机视觉领域的强大架构。但是,它在某些成像场(例如显微镜和卫星成像)中的应用提出了独特的挑战。在这些域中,图像通常包含多个通道,每个通道都带有语义上不同和独立的信息 ...
0 0 0 2025/06/04 arXiv:2309.16108v4 maxwill
遥感图像(RSI)超分辨率(SR)的最新进展已使用深层神经网络(例如卷积神经网络和 Transformer )表现出了显着的性能 ...
0 0 0 2025/06/04 arXiv:2405.04964v2 澹台心木
大型语言模型(LLM)的进步导致了各种服务领域的重大改进,包括搜索,建议和聊天机器人应用程序。但是,将最新的研究(SOTA)研究应用于工业环境提出了挑战,因为它需要保持灵活的对话能力,同时也严格遵守了特定的服务限制。由于LLM的概率性质,这可以看作是两个矛盾的要求 ...
0 0 0 2025/06/04 arXiv:2505.23006v1 waterfall666
大型视觉模型(LVLM)在多模式理解方面表现出色,但由于多余的视力 Token 而遭受高度计算成本。现有的修剪方法通常依赖于单层注意力评分来排名和修剪冗余的视觉 Token 来解决此效率低下。但是,由于 Token 与层之间的相互作用很复杂,因此提出了一个基本的问题:这是一个简单的单层标准,足以识别冗余?为了回答这个问题,我们从基本的角度重新考虑了冗余视觉 Token 的出现:信息流,该信息流通过 ...
0 0 0 2025/06/04 arXiv:2505.19536v1 lizijian9630
最近的大型视觉模型(LVLM)通过结合了细粒度的视觉感知和编码,具有先进的多模式理解。但是,由于视觉 Token 序列较长,这种方法会产生巨大的计算成本,这对实时部署构成了挑战。为了减轻这种情况,先前的研究已经探索了在视觉编码器的输出层或语言模型的早期层次上修剪不重要的视觉 Token  ...
0 0 0 2025/06/04 arXiv:2505.22654v1 lizijian9630
随着大语言模型的日益普及,模型评估中的数据污染变得越来越普遍。它允许模型通过记忆“作弊”而不是显示真正的功能。因此,污染分析已成为可靠模型评估的关键部分,以验证结果 ...
0 0 0 2025/06/04 arXiv:2310.17589v3 13530361597
在 Transformer 体系结构中, Token \ textemdash离散单元从原始数据\ textemdash衍生而成,是通过将输入分割为固定长度的块来形成的。然后将每个 Token 映射到一个嵌入式中,从而可以在保留输入的基本信息的同时进行并行注意计算。由于 Transformer 自发机制的二次计算复杂性, Token 还原主要被用作效率策略 ...
0 0 0 2025/06/04 arXiv:2505.18227v1 lizijian9630

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)