最近,具有长期思考推理的大型语言模型(LLMS)像DeepSeek-R1-Have一样,在奥林匹克级数学基准中取得了令人印象深刻的结果。但是,他们经常依靠一组狭窄的策略,并在需要一种新颖思维方式的问题上挣扎。为了系统地研究这些局限性,我们引入了Omega-Omega分发数学问题评估评估,并使用3个概括轴 - A受控但多样化的基准测试,旨在评估三个轴的分布外泛化轴,灵感来自Boden的创造力的类型:(1)探索性解决问题的问题,以解决更为复杂的问题,以在同一问题域内进行更复杂的问题域内域内的更复杂的实例; (2)以前是孤立学到的构图构成组合,以解决需要以新的和连贯的方式整合这些技能的新颖问题; (3)通过超越熟悉的方法来更有效地解决问题的方法,通常是非常规的策略 ...

0 0 0 0 2025/07/22 arXiv:2506.18880v1 15966829631

大型语言模型 (LLM) 是通过学习强大的可泛化算法来解决推理任务,还是记住训练数据?为了研究这个问题,我们使用算术推理作为代表性任务。通过因果分析,我们确定了模型的一个子集(电路),它解释了基本算术逻辑的大部分模型行为,并检查了其功能。通过放大单个电路神经元的水平,我们发现了一组稀疏的重要神经元,它们实现了简单的启发式方法 ...

0 0 0 0 2025/07/22 arXiv:2410.21272v2 15966829631

解决数学问题需要高级推理能力,并对大型语言模型提出了显着的挑战。以前的工作通常会综合专有模型的数据来扩充现有数据集,然后进行指令调整以实现顶级结果。然而,我们对这些数据集的分析揭示了对简单查询的严重偏见,经常无法为最具挑战性的查询生成任何正确的响应 ...

0 0 0 0 2025/07/22 arXiv:2407.13690v2 15966829631

将网页设计转换为功能性 UI 代码是构建网站的关键步骤,这可能既费力又耗时。为了自动化这种从设计到代码的转换过程,人们提出了使用基于学习的网络和多模态大语言模型(MLLM)的各种自动化方法。然而,这些研究仅在小范围的静态网页上进行评估,忽略了动态交互元素,使得它们对于现实世界的网站部署不太实用 ...

0 1 0 0 2025/07/22 arXiv:2411.03292v2 15966829631

这项工作着重于AIGC检测,以开发能够识别各种伪造图像的通用检测器。最近的研究发现,大型预训练模型(例如夹子)对于可推广的深层检测和线性分类器有效。但是,两个关键问题仍未解决:1)理解为什么剪辑特征通过线性分类器有效地检测有效; 2)探索夹子的检测潜力 ...

0 0 0 0 2025/07/21 arXiv:2408.09647v2 15966829631

科学图是跨学科交流结构化知识的重要工具。但是,它们通常以静态栅格图像的形式出版,失去符号语义并限制重复使用。虽然多模式的大语言模型(MLLM)为桥接视觉和结构提供了途径,但现有方法缺乏语义控制和结构性解释性,尤其是在复杂的图表上 ...

0 0 0 0 2025/07/21 arXiv:2504.09479v1 15966829631

大型语言模型(LLMS)的流利度和广泛使用量强调了相应工具的可取性,以帮助LLM生成的文本检测。在本文中,我们确定了LLM概率函数结构的属性,可用于该检测。具体而言,我们证明了从LLM采样的文本倾向于占据模型对数概率函数的负曲率区域 ...

0 0 0 0 2025/07/16 arXiv:2301.11305v2 15966829631

将AI生成的代码与人写的代码区分开来对诸如作者归因,内容跟踪和滥用检测等任务变得至关重要。基于此,基于N克的水印方案已成为突出的水印方案,它注入了一代期间要检测到的秘密水印。但是,它们在代码内容中的鲁棒性仍然不足以评估 ...

0 0 0 0 2025/07/16 arXiv:2507.05512v1 15966829631

尽管有自主性代理推理的承诺,但由于不受限制的LLM驱动的结构,现有的工作流生成方法经常产生脆弱的,不可阻止的计划。我们介绍了Mermaidflow,这是一个框架,该框架通过安全限制的图表演变重新定义了代理搜索空间。 Mermaidflow以Mermaid使用Mermaid(一种结构化且人性化的图形语言)表示工作流程作为可验证的中间表示 ...

0 0 0 0 2025/07/16 arXiv:2505.22967v1 15966829631

检测AI生成的代码,深击和其他合成内容是一项新兴的研究挑战。随着大语言模型(LLM)生成的代码变得越来越普遍,确定每个样本背后的特定模型越来越重要。本文介绍了C计划的LLM作者身份归因的首次系统研究 ...

0 1 0 0 2025/07/14 arXiv:2506.17323v1 15966829631