大型语言模型生成的代码(LLMGCODE)在软件开发中变得越来越普遍。许多研究报告说,LLMGCODE比人为代码(HaCode)具有更多的质量和安全问题。 llmgcode通常在代码更改中与Hacode混合,而更改仅由人类开发人员签名,而无需仔细检查 ...
在这项工作中,我们编译了 $\textbf{$\texttt{DroidCollection}$}$,这是用于训练和评估机器生成代码检测器的最广泛的开放数据套件,包含超过一百万个代码样本、七种编程语言、43 个编码模型的输出以及超过三个现实世界编码域。除了完全由人工智能生成的样本之外,我们的集合还包括人类与人工智能共同编写的代码,以及专门为逃避检测而制作的对抗性样本。随后,我们开发了 $\textbf{$\texttt{DroidDetect}$}$,这是一套仅使用编码器的检测器,使用 $\texttt{DroidCollection}$ 上的多任务目标进行训练 ...
视觉语言模型(VLM)最近在连接视觉感知和语言推理方面取得了重大进展。最近,OpenAI o3模型引入了放大搜索策略,可以有效激发VLM中的主动感知能力,从而提高下游任务性能。然而,使 VLM 能够对适当的图像区域进行有效推理仍然是 GUI 基础的核心挑战,特别是在高分辨率输入和复杂的多元素视觉交互下 ...
现有的 GUI 基础方法通常难以在高分辨率屏幕截图中进行细粒度定位。为了解决这个问题,我们提出了 GUI-ARP,这是一种能够实现自适应多阶段推理的新颖框架。配备了所提出的自适应区域感知(ARP)和自适应阶段控制(ASC),GUI-ARP 动态地利用视觉注意力来裁剪任务相关区域并调整其推理策略,对简单情况执行单阶段推理,对更复杂的场景执行多阶段分析 ...
自动根据学术论文创建科学图表可以显着简化教程、演示文稿和海报的开发,从而节省时间并加快进程。当前的文本到图像模型很难从长上下文输入生成准确且具有视觉吸引力的图表。我们提出了 SciDoc2Diagram,这是一项从科学论文中提取相关信息并生成图表的任务,以及基准数据集 SciDoc2DiagramBench ...
自动图表理解对于内容理解和文档解析至关重要。多模态大语言模型(MLLM)通过特定领域的对齐和微调在图表理解方面表现出了卓越的能力。然而,对齐训练在图表领域的应用仍未得到充分探索 ...
能够有效地阅读科学图表或图表理解是构建有效的科学代理的核心部分。然而,现有的多模态大语言模型 (MLLM),尤其是开源模型,在具有挑战性的基准测试中仍然落后,典型成功率为 30%-50%。先前关于使用合成图表微调 MLLM 的研究通常因其与真实图表的相似性不足而受到限制,这可能会影响复杂现实图表上的模型训练和性能 ...
矢量图形在设计中至关重要,它为艺术家提供了一种多功能媒介来创建与分辨率无关且高度可编辑的视觉内容。视觉语言和扩散模型的最新进展激发了人们对文本到矢量图形生成的兴趣。然而,现有的方法经常遭受过度参数化输出的困扰,或者将分层结构(矢量图形的核心特征)视为次要目标,从而减少了它们的实际用途 ...
最近,文本引导的可缩放矢量图形 (SVG) 合成在图像学和草图等领域显示出了前景。然而,现有的文本到 SVG 生成方法缺乏可编辑性,并且在视觉质量和结果多样性方面存在困难。为了解决这些限制,我们提出了一种新颖的文本引导矢量图形合成方法,称为 SVGDreamer ...
大型语言模型 (LLM) 的前所未有的进步深刻地影响了自然语言处理,但尚未完全涵盖可扩展矢量图形 (SVG) 生成领域。虽然 LLM 在训练期间对来自网页的 SVG 数据的部分知识进行编码,但最近的研究结果表明,LLM 中语义模糊和标记化的表示可能会导致向量基元预测产生幻觉。此外,LLM 训练通常缺乏对矢量路径渲染序列的建模和理解,这可能导致输出矢量基元之间的遮挡 ...