培训数据归因(TDA)方法旨在将模型输出归因于特定的培训示例,并且将这些方法应用于大语言模型(LLM)输出可以显着提高模型透明度和数据策展。但是,迄今为止,将这些方法应用于LLM预训练的整体规模一直是一项挑战。在本文中,我们完善了现有的基于梯度的方法以在大规模上有效工作,从而使我们能够从超过160b的 Token 中的8B参数语言模型中检索有影响力的例子,而无需进行下采样或预滤器 ...
对边界区域的精确预测对于语义分割至关重要。但是,常用的卷积操作员倾向于平滑局部细节线索,使深层模型难以产生准确的边界预测。在本文中,我们介绍了一种运算符级别的方法来增强语义边界意识,以改善深层语义分割模型的预测 ...
偏好优化技术(例如直接偏好优化(DPO))经常用于增强数学推理和编码等领域中大语言模型(LLMS)的推理能力,通常是在受监督的微调之后进行的。这些方法依靠高质量的标签来推理任务来生成偏好对;但是,具有人验证的标签的推理数据集的可用性是有限的。在这项研究中,我们介绍了一种新颖的方法,通过构建解决方案的标签以将问题作为针对相关测试案例的评估来生成推理任务的伪反馈 ...
基于指令的图像编辑可以通过自然语言提示进行鲁棒的图像修改,但是当前的方法面临着精确的效率折衷。微调方法需要大量的计算资源和大型数据集,而无培训技术则与教学理解和编辑质量斗争。我们通过利用大规模扩散 Transformer (DIT)的增强的发电能力和本地情境意识来解决这一难题 ...
自从多模态大型语言模型 (MLLM) 出现以来,它们对广泛的现实应用产生了重大影响,特别是在自动驾驶 (AD) 领域。它们处理复杂视觉数据和推理复杂驾驶场景的能力为端到端自动驾驶系统的新范例铺平了道路。然而,开发 AD 端到端模型的进展缓慢,因为现有的微调方法需要大量资源,包括广泛的计算能力、大规模数据集和大量资金 ...
自动驾驶汽车(AV)进入了商业化阶段,但是它们的互动和表达意图的能力有限,在与人类驱动的车辆(HVS)的互动中仍带来挑战。大型语言模型(LLMS)的最新进展使双向人机交流能够进行双向交流,但是缓慢的推理速度与实时决策的需求之间的冲突挑战了实际部署。为了解决这些问题,本文介绍了一个并行的Actor-Reasoner框架,旨在在多种情况下实现明确的双向AV-HV相互作用 ...
神经网络中的个别神经元通常代表无关特征的混合物。这种现象称为多疾病,可以使解释神经网络更加困难,因此我们旨在了解其原因。我们建议通过功能\ emph {apcation}的镜头进行此操作,这是每个特征在嵌入空间中消耗的分数维度 ...
在本文中,我们提出了MM-KWS,这是一种新颖的方法,用于用户定义的关键字发现利用文本和语音模板的多模式注册。与以前仅关注文本或语音特征的方法不同,MM-KWS从两种模式中提取音素,文本和语音嵌入。然后将这些嵌入与查询语音嵌入以检测目标关键字的嵌入 ...