分布式培训和有效注意机制的进步已大大扩大了大语模型(LLM)的上下文窗口大小。但是,最近的工作表明,开源LLM的有效上下文长度通常不足,通常不超过其训练长度的一半。在这项工作中,我们将此限制归因于LLMS训练和训练后阶段中相对位置的左旋转频率分布,这阻碍了他们有效收集遥远信息的能力 ...
0 0 0 2025/05/07 arXiv:2410.18745v1 leec
大型视觉模型(LVLM)的最新进展揭示了\ textit {过度思考}现象,其中模型在所有任务中都会在所有任务中产生冗长的推理。为了解决此问题,我们提出了\ textbf {fast},这是一个新颖的\ textbf {fa} st- \ textbf {s} low \ textbf {t} hinking框架,该框架基于问题特征动态调整推理深度。通过经验分析,我们通过研究响应长度和数据分布如何 ...
0 0 0 2025/05/07 arXiv:2504.18458v1 duyuetian
放射学报告的生成对于效率至关重要,但是当前模型缺乏专家的结构化推理,通过无法将视觉发现与精确的解剖位置联系起来,从而阻碍了临床信任和解释性。本文介绍了BoxMed-RL,这是一个开创性的统一培训框架,用于生成可验证和可解释的放射学报告。 BoxMed-RL建立在大型视觉语言模型的基础上,通过两个集成阶段彻底改变了报告的生成:(1)在预处理阶段,我们使用医学概念学习来完善该模型,并使用经过想象的监督 ...
0 0 0 2025/05/07 arXiv:2504.18453v1 duyuetian
层次训练后量化已成为一种广泛使用的技术,用于压缩大型语言模型(LLMS)而无需重新培训。但是,这一研究的最新进展是饱和,强调了重新审视其核心限制并探索进一步改进的必要性。这项研究确定了现有的层PTQ方法中的关键瓶颈:跨层的量化错误的积累大大降低了性能,尤其是在低位方案中 ...
0 0 0 2025/05/07 arXiv:2504.09629v1 kkkk
多元神经元 - 激活一组无关特征的神经元被视为朝着任务优化深网的解释性的重要障碍,对AI安全的影响。多功能性的经典起源故事是,与神经元相比,数据包含更多的``功能'',以便学习执行网络以将多个无关的特征共同分配到同一神经元上的多个非相关特征,从而危及我们的内部处理能力。在这项工作中,我们提出了第二个和非急性排除的多重源性的多源性来源 ...
0 0 0 2025/05/07 arXiv:2312.03096v3 Jasper1
我们提出\ textit {MagicColor},这是一个基于扩散的框架,用于多个实体草图着色。多企业2D系列艺术色彩的生产遵循行业标准的工作流程,该工作流程包括三个关键阶段:线条艺术角色的设计,各个对象的着色和改进过程。需要艺术家重复对每个实例逐一着色的过程,这是不准确且效率低下的 ...
0 0 0 2025/05/07 arXiv:2503.16948v1 suxuefeng
培训数据归因(TDA)方法旨在将模型输出归因于特定的培训示例,并且将这些方法应用于大语言模型(LLM)输出可以显着提高模型透明度和数据策展。但是,迄今为止,将这些方法应用于LLM预训练的整体规模一直是一项挑战。在本文中,我们完善了现有的基于梯度的方法以在大规模上有效工作,从而使我们能够从超过160b的 Token 中的8B参数语言模型中检索有影响力的例子,而无需进行下采样或预滤器 ...
0 0 0 2025/05/07 arXiv:2410.17413v3 leec
对边界区域的精确预测对于语义分割至关重要。但是,常用的卷积操作员倾向于平滑局部细节线索,使深层模型难以产生准确的边界预测。在本文中,我们介绍了一种运算符级别的方法来增强语义边界意识,以改善深层语义分割模型的预测 ...
0 0 1 2025/05/07 arXiv:2302.02057v1 zcr10086

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)