近五年来,用于优化数据管理问题的机器学习(ML)技术得到了广泛研究和广泛部署。然而,传统的机器学习方法在泛化性(适应不同场景)和推理能力(理解上下文)方面存在局限性。幸运的是,大型语言模型(LLM)在理解上下文方面表现出了高度的通用性和人类竞争能力,这对于数据管理任务(例如数据库诊断、数据库调优)来说是有希望的。然而,现有的 LLM 有几个局限性:幻觉、成本高、复杂任务的准确性低。为了应对这些挑战,我们设计了LLMDB,一种LLM增强的数据管理范式,它具有通用性和高推理能力,同时避免幻觉,降低LLM成本,并实现高精度。 LLMDB嵌入了特定领域的知识,通过LLM微调和提示工程来避免产生幻觉。 LLMDB 通过提供语义搜索和缓存功能的矢量数据库降低了 LLM 的高成本。 LLMDB通过LLM代理提高了任务准确性,LLM代理提供多轮推理和管道执行。我们展示了 LLMDB 可以很好支持的三个现实场景,包括查询重写、数据库诊断和数据分析。我们还总结了 LLMDB 的开放研究挑战 ...

0 0 0 0 2026/02/08 arXiv:2402.02643v1 just_a_test

大型语言模型 (LLM) 已成为跨各种模式生成数据的强大工具。通过将数据从稀缺资源转变为可控资产, LLM 缓解了模型训练、评估和系统迭代的真实数据获取成本带来的瓶颈。然而,确保 LLM 生成的合成数据的高质量仍然是一个严峻的挑战。现有的研究主要集中在生成方法上,对结果数据质量的直接关注有限。此外,大多数研究仅限于单一模式,缺乏跨不同数据类型的统一视角。为了弥补这一差距,我们提出了 \textbf{LLM 数据审计框架}。在此框架中,我们首先描述如何利用 LLM 来跨六种不同模式生成数据。更重要的是,我们从质量和可信度两个维度对评估合成数据的内在指标进行系统分类。这种方法将焦点从依赖下游任务性能的外部评估转移到数据本身的固有属性。使用该评估系统,我们分析了每种模态的代表性生成方法的实验评估,并找出当前评估实践中的重大缺陷。基于这些发现,我们为社区提供了改进数据生成评估的具体建议。最后,该框架概述了跨不同模式的合成数据实际应用的方法 ...

0 0 0 0 2026/02/08 arXiv:2601.17717v2 just_a_test

迄今为止,大多数地点识别方法都集中于单一模态检索。虽然它们在特定环境中表现良好,但跨模式方法通过允许地图和查询源之间的无缝切换来提供更大的灵活性。它还承诺通过统一模型来减少计算要求,并通过共享参数来实现更高的样本效率。在这项工作中,我们开发了一种通用的地点识别解决方案 UniLoc,它适用于任何单一查询模式(自然语言、图像或点云)。 UniLoc 利用大规模对比学习的最新进展,通过两个级别的分层匹配进行学习:实例级匹配和场景级匹配。具体来说,我们提出了一种新颖的基于自注意力的池化(SAP)模块来评估实例描述符聚合到位置级描述符时的重要性。 KITTI-360 数据集上的实验证明了跨模态对于地点识别的优势,在跨模态设置中实现了卓越的性能,并且在单模态场景中也取得了有竞争力的结果。我们的项目页面可通过此 https URL 公开访问 ...

0 0 0 0 2026/02/08 arXiv:2412.12079v1 13766783701

视觉语言预训练中的大多数现有方法依赖于通过对象检测提取的以对象为中心的特征,并在提取的特征和文本之间进行细粒度的对齐。这些方法学习多个对象之间的关系具有挑战性。为此,我们提出了一种称为 X-VLM 的新方法来执行“多粒度视觉语言预训练”。学习多粒度对齐的关键是在给定相关文本的情况下在图像中定位视觉概念,同时将文本与视觉概念对齐,其中对齐是多粒度的。实验结果表明,X-VLM 有效地将学习到的多粒度对齐应用于许多下游视觉语言任务,并始终优于最先进的方法 ...

0 0 0 0 2026/02/08 arXiv:2111.08276v3 13766783701

大型视觉语言模型 (LVM) 扩展了大型语言模型 (LLM) 的视觉感知功能,使其能够处理和解释视觉信息。损害其可靠性的一个主要挑战是 LVM 可能生成看似合理但实际上不准确的信息的对象幻觉。我们提出了一种新颖的视觉对抗性扰动(VAP)方法来减轻这种幻觉问题。 VAP 通过在不改变基本模型的情况下应用策略性优化的视觉噪声来减轻 LVM 幻觉。我们的方法将幻觉抑制制定为优化问题,利用对抗性策略产生有益的视觉扰动,从而增强模型的事实基础并减少参数知识偏差。大量的实验结果表明,我们的方法在 8 个最先进的 LVM 中持续减少了物体幻觉,在不同的评估中验证了其有效性 ...

0 0 0 0 2026/02/08 arXiv:2501.19164v2 13766783701

对于工业规模的文本到 SQL,由于上下文窗口限制和不相关的噪声,向大型语言模型 (LLM) 提供整个数据库模式是不切实际的。因此,模式链接(将模式过滤到相关子集)至关重要。然而,现有的方法会产生高昂的成本,难以权衡召回率和噪音,并且很难扩展到大型数据库。我们提出了 \textbf{AutoLink},一个自主代理框架,它将模式链接重新表述为迭代的、代理驱动的过程。在 LLM 的指导下,AutoLink 动态探索和扩展链接的模式子集,逐步识别必要的模式组件,而无需输入完整的数据库模式。我们的实验证明了 AutoLink 的卓越性能,实现了 Bird-Dev 上的 \textbf{97.4\%} 和 Spider-2.0-Lite 上的 \textbf{91.2\%} 的最先进的严格模式链接召回,具有竞争性的执行准确性,即 Bird-Dev 上的 \textbf{68.7\%} EX(优于 CHESS)和 \textbf{34.9\%} EX Spider-2.0-Lite(官方排行榜第二名)。至关重要的是,AutoLink 在现有方法严重退化的大型模式(例如,超过 3,000 列)上展示了 \textbf{卓越的可扩展性}、\textbf{保持高召回率}、\textbf{有效的 Token 消耗}和 \textbf{鲁棒的执行准确性},使其成为工业文本到 SQL 系统的高度可扩展、高召回率的模式链接解决方案 ...

0 1 0 0 2026/02/08 arXiv:2511.17190v1 stringify

在视觉和语言导航(VLN)领域,代理的任务是在语言指令的指导下导航现实世界场景。让智能体在整个导航过程中遵守指令是 VLN 领域的一项重大挑战。为了应对这一挑战,常见的方法通常依赖编码器来显式记录过去的位置和操作,从而增加模型的复杂性和资源消耗。我们的建议,视觉和语言导航生成预训练 Transformer (VLN-GPT),采用 Transformer 解码器模型(GPT2)来建模轨迹序列依赖性,绕过历史编码模块的需要。该方法允许通过轨迹序列直接访问历史信息,提高效率。此外,我们的模型将训练过程分为通过模仿学习的离线预训练和通过强化学习的在线微调。这种区别可以实现更集中的培训目标并提高绩效。对 VLN 数据集的性能评估表明,VLN-GPT 超越了复杂的、最先进的基于编码器的模型 ...

0 0 0 0 2026/02/08 arXiv:2405.16994v1 13766783701

本文介绍了 VLN-Pilot,这是一种新颖的框架,其中大型视觉和语言模型(VLLM)承担了室内无人机导航人类飞行员的角色。通过利用 VLLM 的多模态推理能力,VLN-Pilot 可以解释自由形式的自然语言指令,并将其基于视觉观察,以在 GPS 拒绝的室内环境中规划和执行无人机轨迹。与传统的基于规则或几何路径规划方法不同,我们的框架将语言驱动的语义理解与视觉感知相结合,以最少的特定任务工程实现上下文感知的高级飞行行为。 VLN-Pilot 通过推理空间关系、避障以及对不可预见事件的动态反应,支持无人机完全自主地执行指令。我们在定制的真实感室内模拟基准上验证了我们的框架,并展示了 VLLM 驱动的代理在复杂的指令跟踪任务(包括具有多个语义目标的长视野导航)上实现高成功率的能力。实验结果凸显了用语言引导的自主代理取代远程无人机飞行员的前景,为在检查、搜索和救援以及设施监控等任务中对室内无人机进行可扩展、人性化的控制开辟了途径。我们的结果表明,基于 VLLM 的飞行员可以显着减少操作员的工作量,同时提高受限室内环境中的安全性和任务灵活性 ...

0 0 0 0 2026/02/08 arXiv:2602.05552v1 13766783701

随着空中平台从被动观察者发展为主动操纵者,挑战转向设计直观的界面,使非专家用户能够自然地指挥这些系统。这项工作引入了自主空中操纵系统的新颖概念,该系统能够解释高级自然语言命令以检索物体并将其传递给人类用户。该系统旨在将基于 Grounding DINO 和视觉语言动作 (VLA) 模型的 MediaPipe 与配备 1-DOF 夹具和英特尔实感 RGB-D 摄像头的定制无人机集成。 VLA 执行语义推理来解释用户提示的意图,并生成优先级任务队列以掌握场景中的相关对象。接地 DINO 和动态 A* 规划算法用于导航和安全地重新定位物体。为了确保切换阶段安全、自然的交互,系统采用了由 MediaPipe 驱动的以人为本的控制器。该模块提供实时人体姿态估计,使无人机能够利用视觉伺服技术在用户正前方保持稳定、清晰的位置,从而实现舒适的交接。我们通过现实世界的定位和导航实验证明了该系统的有效性,最大误差、平均欧氏误差和均方根误差分别为 0.164m、0.070m 和 0.084m,凸显了 VLA 用于空中操纵操作的可行性 ...

0 0 0 0 2026/02/08 arXiv:2601.13809v2 13766783701

自主检查系统对于确保工业资产的性能和寿命至关重要。最近,代理框架已经展示了自动化检查工作流程的巨大潜力,但仅限于数字任务。然而,它们在现实环境中物理资产的应用仍未得到充分探索。在这项工作中,我们的贡献有两个:首先,我们提出了一个用于自主无人机控制的分层代理框架,第二,我们将其称为 ReActEval 的单个函数执行的推理方法。我们的框架侧重于室内工业环境中的视觉检查任务,例如解释工业读数或检查设备。它采用多代理系统,包括一个头代理和多个工作代理,每个代理控制一架无人机。头代理执行高级规划并评估结果,而工作代理则实施 ReActEval 来推理并执行低级操作。 ReActEval 完全以自然语言运行,遵循计划、推理、行动、评估周期,使无人机能够处理从简单导航(例如,向前飞行 10 米并着陆)到复杂的高级任务(例如,定位和读取压力表)的任务。评估阶段充当反馈和/或重新规划阶段,确保操作符合用户目标,同时防止出现不良结果。我们在具有两个工作代理的模拟环境中评估该框架,根据不同复杂程度和工作流程效率的任务完成情况定性和定量评估性能。通过利用自然语言处理进行代理通信,我们的方法为传统的基于无人机的解决方案提供了一种新颖、灵活且用户可访问的替代方案,无需大量用户干预即可自主解决工业检查问题 ...

0 0 0 0 2026/02/08 arXiv:2510.00259v1 13766783701