大型语言模型 (LLM) 在各种自然语言处理 (NLP) 任务中表现出了卓越的性能。然而,微调这些模型通常需要大量的监督,而获得这种监督可能既昂贵又耗时。本文介绍了一种名为 LanguageModel Self-Improvement by Reinforcement Learning Contemplation (SIRLC) 的新型无监督方法,该方法可以在不依赖外部标签的情况下改进 LLM ...
强化学习 (RL) 已成为针对特定任务微调大型语言模型 (LLM) 的关键技术。然而,流行的强化学习微调方法主要依赖于 PPO 及其变体。尽管这些算法在一般的 RL 设置中是有效的,但当应用于 LLM 的微调时,它们通常表现出次优的性能和分布崩溃的脆弱性 ...
可以与环境和邻居交互的实体机器人越来越多地被用作开发人工智能的测试用例。这就产生了对多模式机器人控制器的需求,该控制器可以跨不同类型的信息(包括文本)进行操作。大型语言模型能够处理和生成文本和视听数据,以及最近的机器人动作 ...
人类反馈强化学习 (RLHF) 是一种使语言模型与人类偏好保持一致的关键技术,在 GPT-4、ChatGPT 和 Llama 2 等会话模型的成功中发挥着关键作用。使用 RLHF 的核心挑战在于训练可靠的奖励模型(RM),依赖于通常由人类专家或先进的人工智能系统提供的高质量标签。这些方法可能成本高昂,并且可能会引入影响语言模型响应的偏差 ...
近年来,大型语言模型(LLM)取得了令人瞩目的成功,并被广泛应用于各种下游任务,特别是软件工程(SE)领域的任务中。我们发现,许多将 LLM 与SE相结合的研究都明确或隐含地采用了代理人的概念。然而,缺乏深入的调查来梳理现有作品的发展脉络,分析现有作品如何结合基于LLM的代理技术来优化各种任务,并明确SE中基于LLM的代理的框架 ...
图形用户界面 (GUI) 代理旨在自动执行数字设备(例如智能手机和台式机)上的复杂任务。大多数现有的 GUI 代理通过提取的结构化数据与环境进行交互,这些数据可能非常冗长(例如 ...
创建能够在任何数字设备上使用任意软件的自主虚拟代理仍然是人工智能的主要挑战。阻碍进展的两个关键障碍是:在现实环境中构建虚拟代理的基础设施不足,以及需要对基本代理能力进行野外评估。为了解决这个问题,我们推出了 AgentStudio,这是一个在线的、现实的、多模式的工具包,涵盖了代理开发的整个生命周期 ...
大型语言模型(LLM)在基于文本的人工智能代理方面取得了卓越的性能,赋予它们人类的决策和推理能力。与此同时,出现了一种新兴的研究趋势,重点是这些由LLM支持的人工智能代理多模式领域。这种扩展使人工智能代理能够解释和响应不同的多模式用户查询,从而处理更复杂和引导的任务... ...
机器学习 (ML) 模型越来越多地应用于通常涉及与人类专家合作的应用领域。在这种情况下,当机器学习模型难以预测某些实例时,将某些实例交给单个人类专家可能是有利的。虽然之前的工作主要关注由一位不同的人类专家组成的场景,但在许多现实情况下,可能会有几位具有不同能力的人类专家 ...
基于多模式大语言模型(MLLM)的移动设备代理正在成为流行的应用程序。在本文中,我们介绍了Mobile-Agent,一种自治的多模式移动设备代理。Mobile-Agent首先利用了外贸工具来准确识别和定位应用程序前端界面中的视觉和文本元素... ...