尽管 LLM 拥有出色的代码创建能力,但多语言代码生成仍然极具挑战性。为了解决这个问题,我们打算提高基础 LLM 的多编程语言(MultiPL)性能,同时使用有限的计算资源保留最流行的 LLM 。我们认为 MultiPL 是多种自然语言的特例,并提出利用混合专家 (MoE) 的 LLM 的 MultiPL 扩展,称为 MultiPL-MoE。具体来说,MultiPL-MoE 结合了两个配对的 MoE,以优化 Token 和细分级别的专家选择。 Token 级 MoE 是一个标准的升级 MoE 结构,具有共享专家和新颖的门权重标准化方法,有助于与段级 MoE 的最终融合。段级 MoE 结合了两项创新设计,以更好地捕获编程语言的句法结构和上下文模式:首先,使用滑动窗口将输入标记序列划分为多个段;然后,采用专家选择路由策略,允许专家选择前k个段。实验结果证明了MultiPL-MoE的有效性 ...
有效的指令调整是优化代码LLM,将模型行为与用户期望保持一致的必不可少的,并在现实世界应用程序中提高模型性能。但是,大多数现有的方法都集中在代码片段上,这些代码段仅限于特定功能和刚性结构,从而限制了合成数据的复杂性和多样性。为了解决这些局限性,我们介绍了一个受抽象语法树(AST)启发的基于特征树的合成框架 ...
大型语言模型生成的代码(LLMGCODE)在软件开发中变得越来越普遍。许多研究报告说,LLMGCODE比人为代码(HaCode)具有更多的质量和安全问题。 llmgcode通常在代码更改中与Hacode混合,而更改仅由人类开发人员签名,而无需仔细检查 ...
在这项工作中,我们编译了 $\textbf{$\texttt{DroidCollection}$}$,这是用于训练和评估机器生成代码检测器的最广泛的开放数据套件,包含超过一百万个代码样本、七种编程语言、43 个编码模型的输出以及超过三个现实世界编码域。除了完全由人工智能生成的样本之外,我们的集合还包括人类与人工智能共同编写的代码,以及专门为逃避检测而制作的对抗性样本。随后,我们开发了 $\textbf{$\texttt{DroidDetect}$}$,这是一套仅使用编码器的检测器,使用 $\texttt{DroidCollection}$ 上的多任务目标进行训练 ...
视觉语言模型(VLM)最近在连接视觉感知和语言推理方面取得了重大进展。最近,OpenAI o3模型引入了放大搜索策略,可以有效激发VLM中的主动感知能力,从而提高下游任务性能。然而,使 VLM 能够对适当的图像区域进行有效推理仍然是 GUI 基础的核心挑战,特别是在高分辨率输入和复杂的多元素视觉交互下 ...
现有的 GUI 基础方法通常难以在高分辨率屏幕截图中进行细粒度定位。为了解决这个问题,我们提出了 GUI-ARP,这是一种能够实现自适应多阶段推理的新颖框架。配备了所提出的自适应区域感知(ARP)和自适应阶段控制(ASC),GUI-ARP 动态地利用视觉注意力来裁剪任务相关区域并调整其推理策略,对简单情况执行单阶段推理,对更复杂的场景执行多阶段分析 ...
自动根据学术论文创建科学图表可以显着简化教程、演示文稿和海报的开发,从而节省时间并加快进程。当前的文本到图像模型很难从长上下文输入生成准确且具有视觉吸引力的图表。我们提出了 SciDoc2Diagram,这是一项从科学论文中提取相关信息并生成图表的任务,以及基准数据集 SciDoc2DiagramBench ...
自动图表理解对于内容理解和文档解析至关重要。多模态大语言模型(MLLM)通过特定领域的对齐和微调在图表理解方面表现出了卓越的能力。然而,对齐训练在图表领域的应用仍未得到充分探索 ...
能够有效地阅读科学图表或图表理解是构建有效的科学代理的核心部分。然而,现有的多模态大语言模型 (MLLM),尤其是开源模型,在具有挑战性的基准测试中仍然落后,典型成功率为 30%-50%。先前关于使用合成图表微调 MLLM 的研究通常因其与真实图表的相似性不足而受到限制,这可能会影响复杂现实图表上的模型训练和性能 ...
矢量图形在设计中至关重要,它为艺术家提供了一种多功能媒介来创建与分辨率无关且高度可编辑的视觉内容。视觉语言和扩散模型的最新进展激发了人们对文本到矢量图形生成的兴趣。然而,现有的方法经常遭受过度参数化输出的困扰,或者将分层结构(矢量图形的核心特征)视为次要目标,从而减少了它们的实际用途 ...