一译 —— 文档和论文翻译、对照阅读、讨论和社区

Scalable Influence and Fact Tracing for Large Language Model Pretraining

培训数据归因（TDA）方法旨在将模型输出归因于特定的培训示例，并且将这些方法应用于大语言模型（LLM）输出可以显着提高模型透明度和数据策展。但是，迄今为止，将这些方法应用于LLM预训练的整体规模一直是一项挑战。在本文中，我们完善了现有的基于梯度的方法以在大规模上有效工作，从而使我们能够从超过160b的 Token 中的8B参数语言模型中检索有影响力的例子，而无需进行下采样或预滤器 ...

0 0 0 2025/05/07 arXiv:2410.17413v3 leec

Semantic Diffusion Network for Semantic Segmentation

对边界区域的精确预测对于语义分割至关重要。但是，常用的卷积操作员倾向于平滑局部细节线索，使深层模型难以产生准确的边界预测。在本文中，我们介绍了一种运算符级别的方法来增强语义边界意识，以改善深层语义分割模型的预测 ...

0 0 1 2025/05/07 arXiv:2302.02057v1 zcr10086

Preference Optimization for Reasoning with Pseudo Feedback

偏好优化技术（例如直接偏好优化（DPO））经常用于增强数学推理和编码等领域中大语言模型（LLMS）的推理能力，通常是在受监督的微调之后进行的。这些方法依靠高质量的标签来推理任务来生成偏好对；但是，具有人验证的标签的推理数据集的可用性是有限的。在这项研究中，我们介绍了一种新颖的方法，通过构建解决方案的标签以将问题作为针对相关测试案例的评估来生成推理任务的伪反馈 ...

0 0 0 2025/05/07 arXiv:2411.16345v2 leec

In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer

基于指令的图像编辑可以通过自然语言提示进行鲁棒的图像修改，但是当前的方法面临着精确的效率折衷。微调方法需要大量的计算资源和大型数据集，而无培训技术则与教学理解和编辑质量斗争。我们通过利用大规模扩散 Transformer （DIT）的增强的发电能力和本地情境意识来解决这一难题 ...

0 0 0 2025/05/07 arXiv:2504.20690v1 suxuefeng

OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving

自从多模态大型语言模型 (MLLM) 出现以来，它们对广泛的现实应用产生了重大影响，特别是在自动驾驶 (AD) 领域。它们处理复杂视觉数据和推理复杂驾驶场景的能力为端到端自动驾驶系统的新范例铺平了道路。然而，开发 AD 端到端模型的进展缓慢，因为现有的微调方法需要大量资源，包括广泛的计算能力、大规模数据集和大量资金 ...

0 0 0 2025/05/07 arXiv:2412.15208v2 liangzai

Interact, Instruct to Improve: A LLM-Driven Parallel Actor-Reasoner Framework for Enhancing Autonomous Vehicle Interactions

自动驾驶汽车（AV）进入了商业化阶段，但是它们的互动和表达意图的能力有限，在与人类驱动的车辆（HVS）的互动中仍带来挑战。大型语言模型（LLMS）的最新进展使双向人机交流能够进行双向交流，但是缓慢的推理速度与实时决策的需求之间的冲突挑战了实际部署。为了解决这些问题，本文介绍了一个并行的Actor-Reasoner框架，旨在在多种情况下实现明确的双向AV-HV相互作用 ...

0 0 0 2025/05/07 arXiv:2503.00502v1 liangzai

Polysemanticity and Capacity in Neural Networks

神经网络中的个别神经元通常代表无关特征的混合物。这种现象称为多疾病，可以使解释神经网络更加困难，因此我们旨在了解其原因。我们建议通过功能\ emph {apcation}的镜头进行此操作，这是每个特征在嵌入空间中消耗的分数维度 ...

0 0 0 2025/05/07 arXiv:2210.01892v4 Jasper1

MM-KWS: Multi-modal Prompts for Multilingual User-defined Keyword Spotting

在本文中，我们提出了MM-KWS，这是一种新颖的方法，用于用户定义的关键字发现利用文本和语音模板的多模式注册。与以前仅关注文本或语音特征的方法不同，MM-KWS从两种模式中提取音素，文本和语音嵌入。然后将这些嵌入与查询语音嵌入以检测目标关键字的嵌入 ...

0 0 0 2025/05/07 arXiv:2406.07310v1 cambwang

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）