在本文中,我们试图从两个角度提高temprel提取模型的忠诚。第一个观点是根据上下文描述真正提取。为了实现这一目标,我们建议进行反事实分析,以减轻两种重要类型的训练偏见的影响:事件触发偏见和频繁的标签偏见 ...

0 0 0 0 2025/09/24 arXiv:2210.04992v2 munian

事件时间推理旨在确定叙事中两个或多个事件之间的时间关系。但是,当事件在上下文中的实际时间关系与模型所学的先验知识或偏见之间存在不匹配时,知识冲突就会发生冲突。在本文中,我们建议在使用偏见指标的时间推理中检测知识冲突的示例,其中包括事件关系以前的偏见,时态偏见,叙事偏见和依赖性偏见 ...

0 0 0 0 2025/09/24 arXiv:2305.14970v2 munian

时间关系提取(TRE)旨在掌握事件或动作的演变,从而塑造相关任务的工作流程,因此它有望帮助了解众群体中请求者发起的任务请求。但是,现有方法仍然在有限且分布不均的注释数据方面困难。因此,受到预先训练语言模型(PLM)中存储的丰富的全球知识的启发,我们提出了一个多任务及时的TRE学习框架(TEMPROMPT),结合了及时的调整和对比度学习以解决这些问题 ...

0 0 0 0 2025/09/17 arXiv:2406.14825v4 munian

大型语言模型(LLM)在各种NLP任务中取得了巨大的成功,但它们在推理和算术方面仍然面临重大挑战。时间推理是自然语言理解的关键组成部分,引起了研究的越来越多。但是,对艾伦间隔关系的全面测试(e ...

0 0 0 0 2025/09/10 arXiv:2501.03040v2 munian

经过思考链(COT)推理具有明显的最先进的AI功能。但是,最近的研究表明,当模型在提示中面临明显的偏见时,COT推理并不总是忠实的 ...

0 0 0 0 2025/07/17 arXiv:2503.08679v4 munian

多标签分类在现实世界中很普遍,但是在这种情况下,大型语言模型(LLM)的行为被研究了。我们通过分析每个一代步骤中模型的输出分布来研究自回旋的LLM如何执行多标签分类,重点关注主观任务。我们发现他们的预测行为反映了生成所有相关标签所需的基础语言建模中的多个步骤,因为它们在每个步骤中都倾向于抑制所有标签 ...

0 0 0 0 2025/07/11 arXiv:2505.17510v1 munian

大型语言模型在复杂的文本任务中表现出了显着的推理能力。但是,需要集成视觉和文本信息的多模式推理仍然是一个重大挑战。现有的视觉语言模型通常难以有效地分析和推理视觉内容,从而在复杂的推理任务上表现出色 ...

0 0 0 0 2025/03/20 arXiv:2503.10615v2 munian

DeepSeek-R1-Zero成功证明了LLMS中纯粹通过增强学习(RL)中推理能力的出现。受这一突破的启发,我们探讨了如何利用RL来增强MLLM的推理能力。但是,由于没有大量高质量的多模式推理数据,直接训练RL努力激活复杂的推理能力,例如MLLM中的质疑和反思 ...

0 2 1 2 2025/03/14 arXiv:2503.06749v2 munian

尽管最先进的视觉模型(VLM)在复杂的视觉任务中表现出了显着的功能,但它们的成功在很大程度上依赖于大规模的模型缩放,从而限制了它们的实际部署。小规模的VLM提供了一种更实用的替代方案,但在接受传统监督微调(SFT)培训时,面临重大挑战,尤其是在两个方面:跨域(OOD)概括和推理能力,这显着落后于当代大型语言模型(LLMS)。为了应对这些挑战,我们提出了课程加强框(Curr-Reft),这是一种专门为小规模VLM设计的新型训练后范式 ...

0 0 0 0 2025/03/13 arXiv:2503.07065v1 munian