图像生成技术的快速发展加剧了对可解释和可解释的检测方法的需求。尽管现有的方法通常达到高精度,但它们通常是黑匣子,而无需提供人为理解的理由。多模式的大语言模型(MLLM)虽然最初旨在伪造检测,但具有强大的分析和推理能力 ...
0 0 0 2025/06/19 arXiv:2506.07045v1 alimir
端到端的学习方法为机器人操作提供了巨大的潜力,但是它们的影响受到不同实施方案的数据稀缺和异质性的限制。特别是,不同最终效果的各种动作空间为跨体验学习和技能转移创造了障碍。我们通过在潜在的动作空间中学到的扩散政策来应对这一挑战,该政策统一了各种最终效果行动 ...
0 0 0 2025/06/19 arXiv:2506.14608v1 weanhear
点击率(CTR)预测是推荐和广告系统中的基本技术。最近的研究表明,实施多幕科建议有助于加强信息共享和改善整体绩效。但是,现有的多幕科模型仅考虑粗粒的显式场景建模,该模型取决于手动先验规则的预定义场景识别,该规则是有偏见且最佳选择的 ...
0 0 0 2025/06/19 arXiv:2309.02061v1 Leeyhom
准确的医学图像分割对于疾病的诊断和治疗计划至关重要。卷积神经网络(CNN)已经实现了自动医疗图像分割的最先进性能。但是,他们仍然受到复杂条件的挑战,即分割目标具有较大的位置,形状和规模的变化,并且现有的CNN具有较差的解释性,从而限制了其在临床决策中的应用 ...
0 0 0 2025/06/19 arXiv:2009.10549v2 尼斯湖
大型语言模型在文本处理中的成功激发了他们对语音建模的适应。但是,由于语音是连续且复杂的,因此通常将其离散为自回归建模。源自自我监督模型(称为语义 Token )的语音 Token 通常集中在语言方面,但忽略了韵律信息 ...
0 0 0 2025/06/19 arXiv:2506.14767v1 小肥柴
大型语言模型(LLM)的快速演变是由不断增长的参数量表,采用专家的混合物(MOE)体系结构驱动的,以及扩展上下文长度,对AI基础架构施加了前所未有的要求。传统的AI群体在计算强度,内存带宽,片间通信和延迟方面面临限制,并由可变的工作负载和严格的服务级别目标加重。解决这些问题需要从根本上重新设计的硬件软件集成 ...
0 0 6 2025/06/19 arXiv:2506.12708v2 绝世白起
班级增量学习(CIL)旨在使模型能够依次学习新课程,同时保留对先前的知识。尽管当前的方法减轻了灾难性遗忘(CF),但最近的研究强调,CIL模型的性能对班级到来的顺序高度敏感,尤其是当顺序引入的类表现出高层间相似性时。为了应对班级顺序灵敏度的这一关键但研究的挑战,我们首先通过理论分析扩展了现有的CIL框架,证明在增量阶段中具有较低成对相似性的类别的分组可显着提高模型的稳健性对订单变化 ...
0 0 0 2025/06/19 arXiv:2502.20032v2 xixiaixixi
 LLM 是检索增强生成(RAG)系统的组成部分。虽然许多研究侧重于评估端到端 RAG 系统的质量,但缺乏了解 LLM 对于 RAG 任务的适当性的研究。因此,我们引入了一个新的指标——信任评分,它可以对 RAG 框架中 LLM 的可信度进行整体评估 ...
0 0 4 2025/06/19 arXiv:2409.11242v4 0x211

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)