15966829631的文档

MultiPL-MoE: Multi-Programming-Lingual Extension of Large Language Models through Hybrid Mixture-of-Experts

尽管 LLM 拥有出色的代码创建能力，但多语言代码生成仍然极具挑战性。为了解决这个问题，我们打算提高基础 LLM 的多编程语言（MultiPL）性能，同时使用有限的计算资源保留最流行的 LLM 。我们认为 MultiPL 是多种自然语言的特例，并提出利用混合专家 (MoE) 的 LLM 的 MultiPL 扩展，称为 MultiPL-MoE。具体来说，MultiPL-MoE 结合了两个配对的 MoE，以优化 Token 和细分级别的专家选择。 Token 级 MoE 是一个标准的升级 MoE 结构，具有共享专家和新颖的门权重标准化方法，有助于与段级 MoE 的最终融合。段级 MoE 结合了两项创新设计，以更好地捕获编程语言的句法结构和上下文模式：首先，使用滑动窗口将输入标记序列划分为多个段；然后，采用专家选择路由策略，允许专家选择前k个段。实验结果证明了MultiPL-MoE的有效性 ...

0 0 0 0 2025/11/13 arXiv:2508.19268v2 15966829631

EpiCoder: Encompassing Diversity and Complexity in Code Generation

有效的指令调整是优化代码LLM，将模型行为与用户期望保持一致的必不可少的，并在现实世界应用程序中提高模型性能。但是，大多数现有的方法都集中在代码片段上，这些代码段仅限于特定功能和刚性结构，从而限制了合成数据的复杂性和多样性。为了解决这些局限性，我们介绍了一个受抽象语法树（AST）启发的基于特征树的合成框架 ...

0 0 0 0 2025/11/13 arXiv:2501.04694v3 15966829631

One Size Does Not Fit All: Investigating Efficacy of Perplexity in Detecting LLM-Generated Code

大型语言模型生成的代码（LLMGCODE）在软件开发中变得越来越普遍。许多研究报告说，LLMGCODE比人为代码（HaCode）具有更多的质量和安全问题。 llmgcode通常在代码更改中与Hacode混合，而更改仅由人类开发人员签名，而无需仔细检查 ...

0 0 0 0 2025/10/29 arXiv:2412.16525v2 15966829631

$\texttt{Droid}$: A Resource Suite for AI-Generated Code Detection

在这项工作中，我们编译了 $\textbf{$\texttt{DroidCollection}$}$，这是用于训练和评估机器生成代码检测器的最广泛的开放数据套件，包含超过一百万个代码样本、七种编程语言、43 个编码模型的输出以及超过三个现实世界编码域。除了完全由人工智能生成的样本之外，我们的集合还包括人类与人工智能共同编写的代码，以及专门为逃避检测而制作的对抗性样本。随后，我们开发了 $\textbf{$\texttt{DroidDetect}$}$，这是一套仅使用编码器的检测器，使用 $\texttt{DroidCollection}$ 上的多任务目标进行训练 ...

0 0 0 0 2025/10/29 arXiv:2507.10583v3 15966829631

Learning Active Perception via Self-Evolving Preference Optimization for GUI Grounding

视觉语言模型（VLM）最近在连接视觉感知和语言推理方面取得了重大进展。最近，OpenAI o3模型引入了放大搜索策略，可以有效激发VLM中的主动感知能力，从而提高下游任务性能。然而，使 VLM 能够对适当的图像区域进行有效推理仍然是 GUI 基础的核心挑战，特别是在高分辨率输入和复杂的多元素视觉交互下 ...

0 0 0 0 2025/10/16 arXiv:2509.04243v1 15966829631

GUI-ARP: Enhancing Grounding with Adaptive Region Perception for GUI Agents

现有的 GUI 基础方法通常难以在高分辨率屏幕截图中进行细粒度定位。为了解决这个问题，我们提出了 GUI-ARP，这是一种能够实现自适应多阶段推理的新颖框架。配备了所提出的自适应区域感知（ARP）和自适应阶段控制（ASC），GUI-ARP 动态地利用视觉注意力来裁剪任务相关区域并调整其推理策略，对简单情况执行单阶段推理，对更复杂的场景执行多阶段分析 ...

0 0 0 0 2025/10/16 arXiv:2509.15532v1 15966829631

SciDoc2Diagrammer-MAF: Towards Generation of Scientific Diagrams from Documents guided by Multi-Aspect Feedback Refinement

自动根据学术论文创建科学图表可以显着简化教程、演示文稿和海报的开发，从而节省时间并加快进程。当前的文本到图像模型很难从长上下文输入生成准确且具有视觉吸引力的图表。我们提出了 SciDoc2Diagram，这是一项从科学论文中提取相关信息并生成图表的任务，以及基准数据集 SciDoc2DiagramBench ...

0 0 0 0 2025/10/16 arXiv:2409.19242v2 15966829631