本文介绍了一种新颖的手机控制架构,称为“应用程序代理”,用于跨各种 Android 应用程序进行有效的交互和控制。所提出的轻量级多模式应用程序控制(LiMAC)将文本目标和过去的移动序列作为输入为了解决智能手机固有的计算限制,我们在 LiMAC 中引入了一个集成了微调视觉语言模型 (VLM) 的小型动作转换器 (AcT)。实时决策和任务执行 ...

0 0 0 0 2024/10/30 arXiv:2410.17883v1 yangming

大型语言模型 (LLM) 推动了许多智能代理任务,例如网络导航,但由于以下三个因素,大多数现有代理在现实网页中的表现远远不能令人满意:(1) 网页上操作的多功能性,(2) HTML 文本超出模型处理能力,以及 (3) 由于 Web 的开放域性质而导致决策的复杂性。鉴于这一挑战,我们开发了 AutoWebGLM,这是一种基于 ChatGLM3-6B 构建的、性能优于 GPT-4 的自动 Web 导航代理。受人类浏览模式的启发,我们设计了一种 HTML 简化算法来表示网页,简洁地保留重要信息 ...

0 0 0 0 2024/10/30 arXiv:2404.03648v2 yangming

目前,大量文档数据以非结构化格式存在,包括可移植文档格式 (PDF) 文件和图像。由于不同的表格样式、复杂的形式以及包含不同的语言,从这些文档中提取信息提出了巨大的挑战。已经开发了一些开源工具包,例如 Camelot、Plumb a PDF (pdfnumber) 和 Paddle Paddle Structure V2 (PP-StructureV2),以方便从 PDF 或图像中提取表格 ...

0 0 0 0 2024/09/11 arXiv:2409.05125v1 yangming

历史印刷媒体档案的数字化对于提高当代记录的可访问性至关重要。然而,用于将物理记录转换为数字文本的光学字符识别 (OCR) 过程很容易出现错误,尤其是报纸和期刊,因为其布局复杂。本文介绍了上下文利用 OCR 校正 (CLOCR-C),它利用基于转换器的语言模型 (LM) 的填充和上下文自适应能力来提高 OCR 质量 ...

0 0 0 0 2024/09/03 arXiv:2408.17428v1 yangming

虽然广泛的研究探索了使用大型语言模型 (LLM) 进行基于表的推理,但大多数方法在应用于大型表时都难以实现可扩展性。为了在这些场景中保持 LLM 的卓越理解能力,我们引入了 ALTER(基于大表的推理增强)——一个旨在通过查询来利用自由形式自然语言 (NL) 问题中的潜在增强潜力的框架增强器和半结构化表格数据,通过表增强器。通过仅利用表中相关数据的一小部分并用预先增强的模式、语义和文字信息对其进行补充,ALTER 在基于表的推理基准测试中实现了出色的性能 ...

0 0 0 0 2024/08/20 arXiv:2407.03061v1 yangming

大型语言模型(LLM)的训练和推理知识从原始数据传输到有意义的计算的一个成本高昂的过程。受人脑记忆层次结构的启发,我们通过为LLM配备显着式记忆(一种比)模型参数和文本搜索增强生成(RAG)更便宜的记忆格式)来降低成本。从概念上讲,由于大部分知识外化为显性记忆,LLM可以享受更小的参数大小、训练成本和推理成本,所有这些都与剩余“抽象知识”的数量成正比…… ...

0 2 1 4 2025/01/07 arXiv:2407.01178v1 yangming

跨文档事件共指解析 (CDECR) 涉及引用相同现实世界事件的多个文档中的事件引发进行响应。 现有方法利用 BERT 等小语言模型 (SLM) 的解决方案来解决事件关联上下文之然而,由于上下文的复杂性和多样性,这些模型很容易学习简单的共现...... ...

0 0 0 0 2024/12/09 arXiv:2406.02148v1 yangming

语言模型在广泛的应用中都很有效,但最复杂的模型通常是专有的。例如,OpenAI 的 GPT-4 和 Anthropic 的各种模型价格昂贵且消耗大量能源。相比之下,开源社区已经产生了具有竞争力的模型,例如 Llama3 ...

0 0 0 0 2024/06/05 arXiv:2404.19296v1 yangming

这项研究引入了 DesignQA,这是一种新颖的基准,旨在评估多模态大语言模型 (MLLM) 在理解和应用技术文档中的工程要求方面的熟练程度。 DesignQA 的开发重点是现实世界的工程挑战,它独特地结合了来自 Formula SAE 学生竞赛的多模式数据,包括文本设计要求、CAD 图像和工程图纸。与许多现有的 MLLM 基准不同,DesignQA 包含基于文档的视觉问题,其中输入图像和输入文档来自不同的来源 ...

0 0 0 0 2024/06/05 arXiv:2404.07917v1 yangming

大型语言模型(LLM)已显示出彻底改变各个领域的自然语言处理任务的潜力,引发了人们对垂直特定大型模型的极大兴趣。然而,与BloombergGPT、FinGPT等专有模型凭借其独特的数据积累在金融领域取得长足发展不同,中国法律领域并没有很多类似的大语言模型来推动其数字化转型。 在本文中,我们提出了一种名为 ChatLaw 的开源法律大语言模型 ...

0 0 1 1 2024/12/19 arXiv:2306.16092v2 yangming

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)