最近,文本引导的可缩放矢量图形 (SVG) 合成在图像学和草图等领域显示出了前景。然而,现有的文本到 SVG 生成方法缺乏可编辑性,并且在视觉质量和结果多样性方面存在困难。为了解决这些限制,我们提出了一种新颖的文本引导矢量图形合成方法,称为 SVGDreamer ...
大型语言模型 (LLM) 的前所未有的进步深刻地影响了自然语言处理,但尚未完全涵盖可扩展矢量图形 (SVG) 生成领域。虽然 LLM 在训练期间对来自网页的 SVG 数据的部分知识进行编码,但最近的研究结果表明,LLM 中语义模糊和标记化的表示可能会导致向量基元预测产生幻觉。此外,LLM 训练通常缺乏对矢量路径渲染序列的建模和理解,这可能导致输出矢量基元之间的遮挡 ...
从文本生成位图图形已引起相当多的关注,但对于科学图形,矢量图形通常是首选。鉴于矢量图形通常使用低级图形基元进行编码,因此直接生成它们很困难。为了解决这个问题,我们建议使用 TikZ,一种著名的抽象图形语言,可以编译为矢量图形,作为科学图形的中间表示 ...
尽管在纸上绘制想法相对容易,但创建高质量的科学图形可能既耗时又具有挑战性。此外,重新创建未以保留语义信息的格式存储的现有图形同样复杂。为了解决这个问题,我们引入了 DeTikZify,这是一种新颖的多模态语言模型,它可以根据草图和现有图形自动合成科学图形作为保留语义的 TikZ 图形程序 ...
可控代码生成,即在保持功能的同时合成遵循指定风格的代码的能力,仍然是一项具有挑战性的任务。我们提出了一个结合对比学习和条件解码的两阶段训练框架,以实现灵活的风格控制。第一阶段将代码风格表示与语义和结构特征结合起来 ...
图表到代码生成任务需要 MLLM 将图表图像转换为可执行代码。这项任务面临两个主要挑战:有限的数据多样性以及难以保持生成的图表与原始图表之间的视觉一致性。现有数据集主要依靠合成种子数据来提示 GPT 模型进行代码生成,从而产生同质样本,从而限制了模型泛化到现实世界的图表样式 ...
代码的大型语言模型通常需要显着的计算复杂性,并且随着输入代码序列的长度而显着增加。我们提出 LeanCode 来简化代码,以减少训练和预测时间,利用代码上下文来利用注意力分数来表示 Token 的重要性。我们主张根据平均上下文感知注意力分数而不是所有输入的平均分数选择性地删除标记 ...
检测大型语言模型 (LLM) 生成的内容对于防止滥用和构建值得信赖的人工智能系统至关重要。尽管现有的检测方法表现良好,但它们在分布外(OOD)场景中的鲁棒性仍然不足。在本文中,我们假设,与现有检测方法使用的特征相比,LLM的内部表示包含更全面和原始的特征,可以更有效地捕获和区分LLM生成的文本(LGT)和人类编写的文本(HWT)之间的统计模式差异 ...
当使用语言模型 (LM) 解决复杂问题时,人类可能很难理解 LM 生成的解决方案并修复有缺陷的解决方案。为了帮助人类修复它们,我们建议自动将复杂的解决方案分解为与特定子任务相对应的多个更简单的部分。我们引入了一种新的学习任务分解目标,称为辅助价值(AssistV),它衡量人类修复分解解决方案的可行性和速度 ...
渲染是从 3D 资源生成 2D 图像的过程,通常使用图形管道在虚拟环境中进行模拟。通过反转这样的渲染器,人们可以想到一种从输入图像预测 3D 形状的学习方法。然而,标准渲染管道涉及称为光栅化的基本离散化步骤,这阻止了渲染过程的可微分,因此适合学习 ...