现有的LLM代理系统通常从每个步骤中从固定且预定义的集合中选择动作。尽管这种方法在封闭的,狭窄的环境中有效,但我们认为,在现实世界中部署LLM代理时,它提出了两个主要挑战:(1)从一组固定的动作中选择明显限制了LLM代理的计划和行动能力,并且(2)这种方法需要实质性的行动,以阐明所有可能的行动,并在所有可能的行动中实施了所有可能的行动,并且可以在所有可能的行动中实施,以确保所有可能的行动。在这项工作中,我们提出了一个LLM代理框架,该框架可以以在线方式进行动态创建和动作组成 ...
大型语言模型(LLM)以其处理各种任务的卓越能力,推动了推理和规划任务的显着进步,其中将复杂问题分解为可执行的工作流程是这一过程中的关键步骤。现有的工作流评估框架要么仅仅关注整体性能,要么存在场景覆盖范围有限、工作流结构简单化、评估标准宽松等局限性。为此,我们引入了 WorFBench,一个具有多方面场景和复杂的图形工作流结构的统一工作流生成基准 ...
工作流与大语言模型(LLMS)的集成使基于LLM的代理能够执行预定义的过程,从而在现实世界应用程序中增强自动化。传统的基于规则的方法倾向于限制LLM的固有灵活性,因为它们的预定义的执行路径限制了模型的动作空间,尤其是在遇到意外的工作流程(OOW)查询时。相反,基于及时的方法使LLM可以完全控制流动,从而导致程序合规性的执行减少 ...
在微服务体系结构的领域中,经常发生的事件的发生需要雇用根本原因分析(RCA)以进行快速问题解决。很常见的是,严重的事件可能需要几个小时的时间来确定根本原因。因此,当代趋势涉及将大型语言模型(LLMS)作为RCA的自动化代理 ...
分布式跟踪包含有价值的信息,但通常数量庞大,这对跟踪框架设计提出了核心挑战:在保留基本跟踪信息和减少跟踪量之间进行权衡。为了解决这种权衡问题,以前的方法通常使用“1 或 0”采样策略:保留采样轨迹,同时完全丢弃未采样轨迹。然而,基于对现实世界生产轨迹的实证研究,我们发现“1或0”策略实际上未能有效平衡这种权衡 ...
大语言模型 (LLM) 的应用已经远远超出了文本处理的范围,标志着一个新时代的到来,LLM 被设想为能够在复杂环境中运行的多面手代理。这些环境通常非常广泛,使得 LLM 无法在其短期记忆中处理它们。受最近关于使用工具扩展 LLM 能力的研究的推动,我们寻求研究工具的有趣潜力,通过引入一类称为中间件的新型工具来增强 LLM 处理此类复杂性的能力,以帮助在这些庞大的环境中进行主动探索 ...
这篇全面的评论深入探讨了即时工程在释放大型语言模型 (LLM) 功能方面的关键作用。人工智能 (AI) 的发展,从 20 世纪 50 年代兴起到先进神经网络和深度学习架构的出现,在 LLM 领域取得了突破,出现了 GPT-4o 和 Claude-3 等模型,在视觉领域也取得了突破。语言模型 (VLM),包括 CLIP 和 ALIGN 等模型。即时工程是构建输入的过程,它已成为最大化这些模型的实用性和准确性的关键技术 ...
近五年来,用于优化数据管理问题的机器学习(ML)技术得到了广泛研究和广泛部署。然而,传统的机器学习方法在泛化性(适应不同场景)和推理能力(理解上下文)方面存在局限性。幸运的是,大型语言模型(LLM)在理解上下文方面表现出了高度的通用性和人类竞争能力,这对于数据管理任务(例如,数据管理任务)来说是有希望的 ...
生成式 LLM (例如 GPT)有潜力通过以新方式自动化任务来彻底改变需求工程 (RE)。本专栏探讨了新颖之处,并介绍了精确提示对于有效交互的重要性。人工评估和及时工程对于利用 LLM 能力至关重要 ...
强化学习算法通常在缺乏密集、形状良好的奖励函数的情况下陷入困境。内在动机的探索方法通过奖励代理访问新颖的状态或转换来解决这一限制,但这些方法在大多数发现的新颖性与下游任务无关的大型环境中提供的好处有限。我们描述了一种使用文本语料库的背景知识来进行形状探索的方法 ...