xx的文档

xx 南京

生命的统一性和多样性

Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation

本文介绍了一种称为逐句语音摘要（Sen-SSum）的新颖方法，该方法以逐句的方式从语音文档生成文本摘要。 Sen-SSum 将自动语音识别 (ASR) 的实时处理与语音摘要的简洁性相结合。为了探索这种方法，我们提供了 Sen-SSum 的两个数据集：Mega-SSum 和 CSJ-SSum ...

0 0 0 0 2024/09/08 arXiv:2408.00205v1 xx

CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation

由于数学表达式的结构复杂且符号多样，公式识别面临重大挑战。尽管公式识别模型不断进步，但这些模型采用的评估指标（例如 BLEU 和编辑距离）仍然表现出明显的局限性。他们忽视了同一个公式具有不同的表示形式，并且对训练数据的分布高度敏感，从而导致公式识别评估的不公平性 ...

0 0 0 0 2024/09/08 arXiv:2409.03643v1 xx

WildVis: Open Source Visualizer for Million-Scale Chat Logs in the Wild

现实世界对话数据的可用性不断增加，为研究人员研究用户与聊天机器人的交互提供了令人兴奋的机会。然而，这些数据的庞大数量使得手动检查单个对话变得不切实际。为了克服这一挑战，我们推出了 WildVis，这是一种交互式工具，可以实现快速、多功能和大规模的对话分析 ...

0 0 0 0 2024/09/08 arXiv:2409.03753v1 xx

Building Math Agents with Multi-Turn Iterative Preference Learning

最近的研究表明，大型语言模型（LLM）的数学问题解决能力可以通过集成外部工具（例如代码解释器）和采用多轮思想链（CoT）推理来增强。虽然当前的方法侧重于合成数据生成和监督微调（SFT），但本文研究了互补的直接偏好学习方法，以进一步提高模型性能。然而，现有的直接偏好学习算法最初是针对单轮聊天任务而设计的，并没有完全解决工具集成数学推理任务所需的多轮推理和外部工具集成的复杂性 ...

0 0 0 0 2024/09/07 arXiv:2409.02392v1 xx

FuzzCoder: Byte-level Fuzzing Test via Large Language Model

模糊测试是一种重要的动态程序分析技术，旨在查找复杂软件中的漏洞。模糊测试涉及向目标程序提供精心设计的恶意输入，以导致崩溃、缓冲区溢出、内存错误和异常。以有效的方式制作恶意输入是一个困难的开放问题，最好的方法通常对预先存在的有效输入应用统一的随机突变 ...

0 0 0 0 2024/09/06 arXiv:2409.01944v1 xx

Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever

事实证明，多向量密集模型（例如 ColBERT）在信息检索方面非常有效。 ColBERT 的后期交互评分近似于交叉编码器中看到的联合查询文档注意力，同时由于其双编码器架构以及最近在索引和搜索方面的优化，保持了更接近传统密集检索模型的推理效率。在本文中，我们介绍了一种新颖的架构和训练框架来支持长上下文窗口和多语言检索 ...

0 0 0 0 2024/09/05 arXiv:2408.16672v3 xx

Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain

混合搜索已经成为一种有效的策略，可以抵消不同匹配范式的局限性，特别是在域外环境中，检索质量有了显着的提高。然而，现有的研究主要集中在一组有限的检索方法上，仅在英语领域通用数据集上成对评估。在这项工作中，我们研究了未经探索的法语法律领域内各种著名检索模型的混合搜索的功效，评估了零样本和域内场景 ...

0 0 1 5 2024/09/05 arXiv:2409.01357v1 xx

Law of Vision Representation in MLLMs

我们在多模态大型语言模型 (MLLM) 中提出了“视觉表示的规律”。它揭示了跨模态对齐、视觉表示的一致性和 MLLM 性能之间存在强烈的相关性。我们使用跨模态 Alignment 和 Correspondence 分数 (AC 分数) 来量化这两个因素。通过对 13 种不同的视觉表示设置进行大量实验，并在 8 个基准上进行评估，我们发现 AC 分数与模型性能呈线性相关。

0 0 0 0 2024/09/04 arXiv:2408.16357v1 xx

SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding

科学文献的理解对于提取目标信息和获得见解至关重要，从而显着推进科学发现。尽管大型语言模型（LLM）取得了显着的成功，但它们在科学文献理解方面面临挑战，这主要是由于（1）缺乏科学知识和（2）不熟悉专门的科学任务。为了培养专门从事科学文献理解的 LLM ，我们提出了一种混合策略，集成了持续预训练（CPT）和监督微调（SFT），以同时注入科学领域知识并增强特定领域任务的指令跟踪能力 ...

0 0 0 0 2024/09/04 arXiv:2408.15545v2 xx

VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

基础模型已成为时间序列预测（TSF）中一种有前景的方法。现有方法要么微调大型语言模型 (LLM)，要么构建大规模时间序列数据集来开发 TSF 基础模型。然而，由于严重的跨域差距或域内异质性，这些方法面临挑战 ...

0 0 0 0 2024/09/03 arXiv:2408.17253v1 xx