15966829631的文档

Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection

大型语言模型 (LLM) 的快速发展显着增强了它们生成连贯且上下文相关文本的能力，引发了人们对人工智能生成内容滥用的担忧，并使其检测变得至关重要。然而，这项任务仍然具有挑战性，特别是在未知的领域或不熟悉的 LLM 。利用 LLM 下一个 Token 分布输出提供了一种理论上有吸引力的检测方法，因为它们概括了模型在不同语料库上进行的广泛预训练的见解 ...

0 0 0 0 2025/10/11 arXiv:2501.03940v3 15966829631

CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs

将多模态大型语言模型 (MLLM) 应用于分析科学论文或财务报告等现实任务时，图表理解发挥着关键作用。然而，现有的数据集通常侧重于过于简单和同质的图表以及基于模板的问题，导致对进展的衡量过于乐观。我们证明，尽管开源模型在这些基准测试中似乎优于强大的专有模型，但使用略有不同的图表或问题进行简单的压力测试可能会使性能下降最多 34 ...

0 0 0 0 2025/10/11 arXiv:2406.18521v1 15966829631

ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

我们引入了一个新的基准测试 ChartMimic，旨在评估大型多模态模型 (LMM) 的基于视觉的代码生成能力。 ChartMimic利用信息密集型可视化图表和文本指令作为输入，要求LMM生成相应的图表渲染代码。 ChartMimic 包含 1,000 个人工策划的（图形、指令、代码）三元组，它们代表了各个领域（例如，科学论文）中发现的真实图表用例 ...

0 0 0 0 2025/10/11 arXiv:2406.09961v2 15966829631

Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

多模态大语言模型（MLLM）的显着进步由于其在视觉上下文中的卓越性能而引起了人们的广泛关注。然而，它们将视觉图形转化为可执行代码的能力尚未得到彻底评估。为了解决这个问题，我们引入了 Plot2Code，这是一个综合性的视觉编码基准测试，旨在对 MLLM 进行公平和深入的评估 ...

0 0 0 0 2025/10/11 arXiv:2405.07990v1 15966829631

IconShop: Text-Guided Vector Icon Synthesis with Autoregressive Transformers

可缩放矢量图形 (SVG) 是一种流行的矢量图像格式，可为交互性和动画提供良好的支持。尽管具有吸引人的特性，但创建自定义 SVG 内容对用户来说可能具有挑战性，因为理解 SVG 语法或熟悉专业编辑软件需要陡峭的学习曲线。文本到图像生成的最新进展激发了研究人员探索使用基于图像的方法（即向量图形合成）进行矢量图形合成 ...

0 0 0 0 2025/10/10 arXiv:2304.14400v4 15966829631

OmniSVG: A Unified Scalable Vector Graphics Generation Model

Scalable Vector Graphics (SVG) is an important image format widely adopted in graphic design because of their resolution independence and editability.生成高质量SVG的研究不断引起AIGC社区设计师和研究人员的关注。 However, existing methods either produces unstructured outputs with huge computational cost or is limited to generating monochrome icons of over-simplified structures. ...

0 0 0 0 2025/10/10 arXiv:2504.06263v2 15966829631

Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection

CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs

ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

IconShop: Text-Guided Vector Icon Synthesis with Autoregressive Transformers

OmniSVG: A Unified Scalable Vector Graphics Generation Model

SVGen: Interpretable Vector Graphics Generation with Large Language Models

SVGFusion: Scalable Text-to-SVG Generation via Vector Space Diffusion

Paper2Video: Automatic Video Generation from Scientific Papers

ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation