15966829631的文档

15966829631

15966829631

个性签名 ...

OMEGA: Can LLMs Reason Outside the Box in Math? Evaluating Exploratory, Compositional, and Transformative Generalization

最近，具有长期思考推理的大型语言模型（LLMS）像DeepSeek-R1-Have一样，在奥林匹克级数学基准中取得了令人印象深刻的结果。但是，他们经常依靠一组狭窄的策略，并在需要一种新颖思维方式的问题上挣扎。为了系统地研究这些局限性，我们引入了Omega-Omega分发数学问题评估评估，并使用3个概括轴 - A受控但多样化的基准测试，旨在评估三个轴的分布外泛化轴，灵感来自Boden的创造力的类型：（1）探索性解决问题的问题，以解决更为复杂的问题，以在同一问题域内进行更复杂的问题域内域内的更复杂的实例；（2）以前是孤立学到的构图构成组合，以解决需要以新的和连贯的方式整合这些技能的新颖问题；（3）通过超越熟悉的方法来更有效地解决问题的方法，通常是非常规的策略 ...

0 0 0 0 2025/07/22 arXiv:2506.18880v1 15966829631

Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics

大型语言模型 (LLM) 是通过学习强大的可泛化算法来解决推理任务，还是记住训练数据？为了研究这个问题，我们使用算术推理作为代表性任务。通过因果分析，我们确定了模型的一个子集（电路），它解释了基本算术逻辑的大部分模型行为，并检查了其功能。通过放大单个电路神经元的水平，我们发现了一组稀疏的重要神经元，它们实现了简单的启发式方法 ...

0 0 0 0 2025/07/22 arXiv:2410.21272v2 15966829631

DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving

解决数学问题需要高级推理能力，并对大型语言模型提出了显着的挑战。以前的工作通常会综合专有模型的数据来扩充现有数据集，然后进行指令调整以实现顶级结果。然而，我们对这些数据集的分析揭示了对简单查询的严重偏见，经常无法为最具挑战性的查询生成任何正确的响应 ...

0 0 0 0 2025/07/22 arXiv:2407.13690v2 15966829631

Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping

将网页设计转换为功能性 UI 代码是构建网站的关键步骤，这可能既费力又耗时。为了自动化这种从设计到代码的转换过程，人们提出了使用基于学习的网络和多模态大语言模型（MLLM）的各种自动化方法。然而，这些研究仅在小范围的静态网页上进行评估，忽略了动态交互元素，使得它们对于现实世界的网站部署不太实用 ...

0 1 0 0 2025/07/22 arXiv:2411.03292v2 15966829631

C2P-CLIP: Injecting Category Common Prompt in CLIP to Enhance Generalization in Deepfake Detection

这项工作着重于AIGC检测，以开发能够识别各种伪造图像的通用检测器。最近的研究发现，大型预训练模型（例如夹子）对于可推广的深层检测和线性分类器有效。但是，两个关键问题仍未解决：1）理解为什么剪辑特征通过线性分类器有效地检测有效； 2）探索夹子的检测潜力 ...

0 0 0 0 2025/07/21 arXiv:2408.09647v2 15966829631

Draw with Thought: Unleashing Multimodal Reasoning for Scientific Diagram Generation

科学图是跨学科交流结构化知识的重要工具。但是，它们通常以静态栅格图像的形式出版，失去符号语义并限制重复使用。虽然多模式的大语言模型（MLLM）为桥接视觉和结构提供了途径，但现有方法缺乏语义控制和结构性解释性，尤其是在复杂的图表上 ...

0 0 0 0 2025/07/21 arXiv:2504.09479v1 15966829631

DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature

大型语言模型（LLMS）的流利度和广泛使用量强调了相应工具的可取性，以帮助LLM生成的文本检测。在本文中，我们确定了LLM概率函数结构的属性，可用于该检测。具体而言，我们证明了从LLM采样的文本倾向于占据模型对数概率函数的负曲率区域 ...

0 0 0 0 2025/07/16 arXiv:2301.11305v2 15966829631

Disappearing Ink: Obfuscation Breaks N-gram Code Watermarks in Theory and Practice

将AI生成的代码与人写的代码区分开来对诸如作者归因，内容跟踪和滥用检测等任务变得至关重要。基于此，基于N克的水印方案已成为突出的水印方案，它注入了一代期间要检测到的秘密水印。但是，它们在代码内容中的鲁棒性仍然不足以评估 ...

0 0 0 0 2025/07/16 arXiv:2507.05512v1 15966829631

MermaidFlow: Redefining Agentic Workflow Generation via Safety-Constrained Evolutionary Programming

尽管有自主性代理推理的承诺，但由于不受限制的LLM驱动的结构，现有的工作流生成方法经常产生脆弱的，不可阻止的计划。我们介绍了Mermaidflow，这是一个框架，该框架通过安全限制的图表演变重新定义了代理搜索空间。 Mermaidflow以Mermaid使用Mermaid（一种结构化且人性化的图形语言）表示工作流程作为可验证的中间表示 ...

0 0 0 0 2025/07/16 arXiv:2505.22967v1 15966829631

I Know Which LLM Wrote Your Code Last Summer: LLM generated Code Stylometry for Authorship Attribution

检测AI生成的代码，深击和其他合成内容是一项新兴的研究挑战。随着大语言模型（LLM）生成的代码变得越来越普遍，确定每个样本背后的特定模型越来越重要。本文介绍了C计划的LLM作者身份归因的首次系统研究 ...

0 1 0 0 2025/07/14 arXiv:2506.17323v1 15966829631

文件上传进度

0%

上传成功 0 个文件