我们推出了 UFO,一种创新的以 UI 为中心的代理,利用 GPT-Vision 的功能,满足针对 Windows 操作系统上的应用程序量身定制的用户请求。 UFO采用双代理框架来仔细观察和分析Windows应用程序的图形用户界面(GUI)和控制信息。这使得代理能够在各个应用程序内以及跨应用程序无缝导航和操作,以满足用户请求,即使跨越多个应用程序也是如此。该框架包含一个控制交互模块,无需人工干预即可促进操作落地,并实现完全自动化执行。因此,UFO 将艰巨且耗时的过程转变为仅通过自然语言命令即可完成的简单任务。我们对 9 个流行的 Windows 应用程序进行了 UFO 测试,涵盖了反映用户日常使用情况的各种场景。来自定量指标和实际案例研究的结果强调了 UFO 在满足用户请求方面的卓越有效性。据我们所知,UFO 是第一个专门为 Windows 操作系统环境中完成任务而定制的 UI 代理。 UFO 的开源代码可在此 https URL 上找到 ...
人工智能正在经历范式转变,通过协调多个大型语言模型 (LLM) 和其他复杂组件的系统实现了突破。因此,为复合人工智能系统开发有原则的自动化优化方法是最重要的新挑战之一。神经网络在早期也面临着类似的挑战,直到反向传播和自动微分通过交钥匙优化来改变这个领域。受此启发,我们推出了 TextGrad,一个通过文本执行自动“区分”的强大框架。 TextGrad 反向传播 LLM 提供的文本反馈,以改进复合人工智能系统的各个组件。在我们的框架中, LLM 提供了丰富的、通用的、自然语言的建议来优化计算图中的变量,范围从代码片段到分子结构。 TextGrad 遵循 PyTorch 的语法和抽象,灵活且易于使用。它开箱即用,适用于各种任务,用户只需提供目标函数,无需调整框架的组件或提示。我们展示了 TextGrad 在各种应用中的有效性和通用性,从问答和分子优化到放射治疗计划。在不修改框架的情况下,TextGrad 将 Google 验证问答中 GPT-4o 的零样本精度从 $51\%$ 提高到 $55\%$,在优化 LeetCode-Hard 编码问题解决方案方面产生了 $20\%$ 相对性能增益,改进了推理提示,设计了具有理想的计算机模拟结合的新型药物小分子,并设计了具有高特异性的放射肿瘤治疗计划。 TextGrad 为加速下一代人工智能系统的开发奠定了基础 ...
记忆增强生成(MAG)使用外部记忆扩展大型语言模型以支持长上下文推理,但现有方法很大程度上依赖于整体记忆存储的语义相似性,纠缠时间、因果和实体信息。这种设计限制了查询意图和检索到的证据之间的可解释性和一致性,导致推理准确性不佳。在本文中,我们提出了 MAGMA,一种多图代理记忆架构,它表示跨正交语义、时间、因果和实体图的每个记忆项。 MAGMA 将检索制定为对这些关系视图的策略引导遍历,从而实现查询自适应选择和结构化上下文构建。通过将内存表示与检索逻辑解耦,MAGMA 提供透明的推理路径和对检索的细粒度控制。 LoCoMo 和 LongMemEval 上的实验表明,MAGMA 在长视野推理任务中始终优于最先进的代理记忆系统 ...
ChatGPT 和 GPT4 等大型语言模型 (LLM) 凭借其新兴能力和泛化性,正在自然语言处理和人工智能领域掀起新的浪潮。然而, LLM 是黑盒模型,通常无法捕获和获取事实知识。相比之下,知识图谱(KG)、维基百科和花谱等都是结构化知识模型,显式存储丰富的事实知识。知识图谱可以通过提供用于推理和可解释性的外部知识来增强 LLM 。同时,知识图谱本质上难以构建和进化,这对知识图谱中现有的生成新事实和表示未见知识的方法提出了挑战。因此,将LLM和KG结合起来,同时发挥各自的优势,是互补的。在本文中,我们提出了 LLM 和 KG 统一的前瞻性路线图。我们的路线图由三个总体框架组成,即1)知识图谱增强型 LLM ,在 LLM 的预训练和推理阶段纳入知识图谱,或者为了增强对 LLM 所学知识的理解; 2)LLM增强知识图谱,利用LLM来完成不同的知识图谱任务,例如嵌入、完成、构造、图文生成和问答; 3)协同LLM+KG,其中LLM和KG发挥同等作用,以互惠互利的方式工作,以增强LLM和KG的数据和知识驱动的双向推理能力。我们在路线图中回顾和总结了这三个框架内的现有工作,并确定了它们未来的研究方向 ...
智能代理作为通向通用人工智能(AGI)的潜在途径脱颖而出。因此,研究人员投入了大量精力来实现它们的多样化。受益于大语言模型 (LLM) 的最新进展,使用通用自然语言作为界面的基于 LLM 的代理在各种应用程序中表现出强大的泛化能力——从充当自主通用任务助手到编码、社会和经济领域的应用程序,基于 LLM 的代理提供了广泛的探索机会。本文调查了当前的研究,深入概述了单代理和多代理系统中基于 LLM 的智能代理。它涵盖了它们的定义、研究框架和基本组成部分,例如它们的组成、认知和规划方法、工具利用以及对环境反馈的响应。我们还深入研究了在多代理系统中部署基于 LLM 的代理的机制,包括多角色协作、消息传递以及缓解代理之间通信问题的策略。讨论还揭示了流行的数据集和应用场景。最后,考虑到人工智能和自然语言处理不断发展的前景,我们展望了基于 LLM 的代理的前景 ...
在大型语言模型 (LLM) 快速发展的推动下,基于 LLM 的代理已成为强大的智能系统,能够实现类人认知、推理和交互。这些代理越来越多地部署在不同的现实世界应用中,包括学生教育、科学研究和财务分析。然而,尽管具有巨大的潜力,基于 LLM 的代理仍然容易受到幻觉问题的影响,这可能导致错误的任务执行并破坏整个系统设计的可靠性。应对这一关键挑战需要深入了解并系统整合基于 LLM 的代理人的最新进展。为此,我们对 LLM 代理人的幻觉进行了首次全面调查。通过仔细分析代理的完整工作流程,我们提出了一种新的分类法,可以识别在不同阶段发生的不同类型的代理幻觉。此外,我们对特工幻觉出现的十八种触发原因进行了深入检查。通过对大量现有研究的详细回顾,我们总结了幻觉缓解和检测的方法,并强调了未来研究的有希望的方向。我们希望这项调查能够激发人们进一步努力解决 LLM 代理的幻觉问题,最终有助于开发更强大、更可靠的代理系统 ...