大型语言模型 (LLM) 的快速发展显着增强了它们生成连贯且上下文相关文本的能力,引发了人们对人工智能生成内容滥用的担忧,并使其检测变得至关重要。然而,这项任务仍然具有挑战性,特别是在未知的领域或不熟悉的 LLM 。利用 LLM 下一个 Token 分布输出提供了一种理论上有吸引力的检测方法,因为它们概括了模型在不同语料库上进行的广泛预训练的见解 ...

0 0 0 0 2025/10/11 arXiv:2501.03940v3 15966829631

将多模态大型语言模型 (MLLM) 应用于分析科学论文或财务报告等现实任务时,图表理解发挥着关键作用。然而,现有的数据集通常侧重于过于简单和同质的图表以及基于模板的问题,导致对进展的衡量过于乐观。我们证明,尽管开源模型在这些基准测试中似乎优于强大的专有模型,但使用略有不同的图表或问题进行简单的压力测试可能会使性能下降最多 34 ...

0 0 0 0 2025/10/11 arXiv:2406.18521v1 15966829631

我们引入了一个新的基准测试 ChartMimic,旨在评估大型多模态模型 (LMM) 的基于视觉的代码生成能力。 ChartMimic利用信息密集型可视化图表和文本指令作为输入,要求LMM生成相应的图表渲染代码。 ChartMimic 包含 1,000 个人工策划的(图形、指令、代码)三元组,它们代表了各个领域(例如,科学论文)中发现的真实图表用例 ...

0 0 0 0 2025/10/11 arXiv:2406.09961v2 15966829631

多模态大语言模型(MLLM)的显着进步由于其在视觉上下文中的卓越性能而引起了人们的广泛关注。然而,它们将视觉图形转化为可执行代码的能力尚未得到彻底评估。为了解决这个问题,我们引入了 Plot2Code,这是一个综合性的视觉编码基准测试,旨在对 MLLM 进行公平和深入的评估 ...

0 0 0 0 2025/10/11 arXiv:2405.07990v1 15966829631

可缩放矢量图形 (SVG) 是一种流行的矢量图像格式,可为交互性和动画提供良好的支持。尽管具有吸引人的特性,但创建自定义 SVG 内容对用户来说可能具有挑战性,因为理解 SVG 语法或熟悉专业编辑软件需要陡峭的学习曲线。文本到图像生成的最新进展激发了研究人员探索使用基于图像的方法(即向量图形合成)进行矢量图形合成 ...

0 0 0 0 2025/10/10 arXiv:2304.14400v4 15966829631

Scalable Vector Graphics (SVG) is an important image format widely adopted in graphic design because of their resolution independence and editability.生成高质量SVG的研究不断引起AIGC社区设计师和研究人员的关注。 However, existing methods either produces unstructured outputs with huge computational cost or is limited to generating monochrome icons of over-simplified structures. ...

0 0 0 0 2025/10/10 arXiv:2504.06263v2 15966829631

可扩展矢量图形(SVG)因其可扩展性、可编辑性和渲染效率而广泛应用于前端开发和 UI/UX 设计。然而,将创意转化为精确的矢量图形仍然是一项耗时的挑战。为了解决这个问题,我们引入了 SVG-1M,这是一个高质量 SVG 与自然语言描述相结合的大规模数据集 ...

0 0 0 0 2025/10/10 arXiv:2508.09168v1 15966829631

在这项工作中,我们引入了 SVGFusion,这是一种文本到 SVG 模型,能够扩展到现实世界的 SVG 数据,而无需依赖基于文本的离散语言模型或长时间的分数蒸馏采样 (SDS) 优化。 SVGFusion 的核心思想是利用流行的文本到图像框架来学习矢量图形的连续潜在空间。具体来说,SVGFusion 包括两个关键模块:矢量像素融合变分自动编码器 (VP-VAE) 和矢量空间扩散变换器 (VS-DiT) ...

0 0 0 0 2025/10/10 arXiv:2412.10437v2 15966829631

学术演示视频已成为研究交流的重要媒介,但制作它们仍然是高度劳动密集型的,通常需要数小时的幻灯片设计、录制和编辑 2 至 10 分钟的短视频。与自然视频不同,演示视频生成面临独特的挑战:研究论文的输入、密集的多模态信息(文本、图形、表格)以及协调多个对齐通道(例如幻灯片、字幕、语音和人类讲话者)的需要。为了应对这些挑战,我们推出了 PaperTalker,这是第一个包含 101 篇研究论文的基准测试,并配有作者创建的演示视频、幻灯片和演讲者元数据 ...

0 0 0 0 2025/10/10 arXiv:2510.05096v2 15966829631

多模态大型语言模型 (MLLM) 在图表理解任务中表现出了卓越的能力。然而,用文本描述解释图表通常会导致信息丢失,因为它无法完全捕获图表中嵌入的密集信息。相比之下,将图表解析为代码提供了无损表示,可以有效地包含所有关键细节 ...

0 0 0 0 2025/10/10 arXiv:2501.06598v3 15966829631