funer7的文档

funer7

个性签名 ...

Language Model Self-improvement by Reinforcement Learning Contemplation

大型语言模型 (LLM) 在各种自然语言处理 (NLP) 任务中表现出了卓越的性能。然而，微调这些模型通常需要大量的监督，而获得这种监督可能既昂贵又耗时。本文介绍了一种名为 LanguageModel Self-Improvement by Reinforcement Learning Contemplation (SIRLC) 的新型无监督方法，该方法可以在不依赖外部标签的情况下改进 LLM ...

0 0 0 0 2024/12/29 arXiv:2305.14483v1 funer7

Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning

强化学习 (RL) 已成为针对特定任务微调大型语言模型 (LLM) 的关键技术。然而，流行的强化学习微调方法主要依赖于 PPO 及其变体。尽管这些算法在一般的 RL 设置中是有效的，但当应用于 LLM 的微调时，它们通常表现出次优的性能和分布崩溃的脆弱性 ...

0 0 0 0 2024/12/20 arXiv:2410.06101v1 funer7

A Survey of Language-Based Communication in Robotics

可以与环境和邻居交互的实体机器人越来越多地被用作开发人工智能的测试用例。这就产生了对多模式机器人控制器的需求，该控制器可以跨不同类型的信息（包括文本）进行操作。大型语言模型能够处理和生成文本和视听数据，以及最近的机器人动作 ...

0 0 0 0 2024/12/15 arXiv:2406.04086v3 funer7

Self-Evolved Reward Learning for LLMs

人类反馈强化学习 (RLHF) 是一种使语言模型与人类偏好保持一致的关键技术，在 GPT-4、ChatGPT 和 Llama 2 等会话模型的成功中发挥着关键作用。使用 RLHF 的核心挑战在于训练可靠的奖励模型（RM），依赖于通常由人类专家或先进的人工智能系统提供的高质量标签。这些方法可能成本高昂，并且可能会引入影响语言模型响应的偏差 ...

0 0 0 0 2024/12/13 arXiv:2411.00418v1 funer7

Agents in Software Engineering: Survey, Landscape, and Vision

近年来，大型语言模型（LLM）取得了令人瞩目的成功，并被广泛应用于各种下游任务，特别是软件工程（SE）领域的任务中。我们发现，许多将 LLM 与SE相结合的研究都明确或隐含地采用了代理人的概念。然而，缺乏深入的调查来梳理现有作品的发展脉络，分析现有作品如何结合基于LLM的代理技术来优化各种任务，并明确SE中基于LLM的代理的框架 ...

0 0 0 0 2024/12/08 arXiv:2409.09030v2 funer7

SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents

图形用户界面（gui）代理旨在自动执行数字设备（例如智能手机和台式机）上的复杂任务。大多数现有的gui代理通过提取的结构化数据与环境进行交互，这些数据可能非常冗长（，这些数据可能非常冗长（例如... ...

0 0 0 0 2025/02/05 arXiv:2401.10935v2 funer7

AgentStudio: A Toolkit for Building General Virtual Agents

创建能够在任何数字设备上使用任意软件的自主虚拟代理仍然是人工智能的主要挑战。阻碍进展的两个关键障碍是：在现实环境中构建虚拟代理的基础设施不足，以及需要对基本代理能力进行野外评估。为了解决这个问题，我们推出了 AgentStudio，这是一个在线的、现实的、多模式的工具包，涵盖了代理开发的整个生命周期 ...

0 0 0 0 2024/07/17 arXiv:2403.17918v1 funer7

Large Multimodal Agents: A Survey

大型语言模型（LLM）在基于文本的人工智能代理方面取得了卓越的性能，赋予它们人类的决策和推理能力。与此同时，出现了一种新兴的研究趋势，重点是这些由LLM支持的人工智能代理多模式领域。这种扩展使人工智能代理能够解释和响应不同的多模式用户查询，从而处理更复杂和引导的任务... ...

0 0 0 0 2024/12/09 arXiv:2402.15116v1 funer7

Forming Effective Human-AI Teams: Building Machine Learning Models that Complement the Capabilities of Multiple Experts

机器学习 (ML) 模型越来越多地应用于通常涉及与人类专家合作的应用领域。在这种情况下，当机器学习模型难以预测某些实例时，将某些实例交给单个人类专家可能是有利的。虽然之前的工作主要关注由一位不同的人类专家组成的场景，但在许多现实情况下，可能会有几位具有不同能力的人类专家 ...

0 0 0 0 2024/07/08 arXiv:2206.07948v1 funer7

Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception

基于多模式大语言模型（MLLM）的移动设备代理正在成为流行的应用程序。在本文中，我们介绍了Mobile-Agent，一种自治的多模式移动设备代理。Mobile-Agent首先利用了外贸工具来准确识别和定位应用程序前端界面中的视觉和文本元素... ...

0 0 0 0 2024/11/14 arXiv:2401.16158v2 funer7