jueli的文档

jueli

个性签名 ...

YOLO-MARL: You Only LLM Once for Multi-agent Reinforcement Learning

深度多智能体强化学习（MARL）的进步使其成为合作游戏决策的一种有前途的方法。然而，对于 MARL 智能体来说，学习某些游戏环境的合作策略仍然具有挑战性。最近，大型语言模型（LLM）已经表现出新兴的推理能力，使它们成为增强智能体之间协调的有希望的候选者 ...

0 0 0 0 2024/12/20 arXiv:2410.03997v1 jueli

Theory of Mind for Multi-Agent Collaboration via Large Language Models

虽然大型语言模型（LLM）在推理和规划方面取得了令人印象深刻的成就，但它们在多智能体协作方面的能力在很大程度上仍未得到探索。本研究通过心理理论 (ToM) 推理任务评估多智能体合作文本游戏中基于 LLM 的智能体，将其性能与多智能体强化学习 (MARL) 和基于规划的基线进行比较。我们观察到基于 LLM 的代理中出现的协作行为和高阶心理理论能力的证据 ...

0 0 0 0 2024/12/20 arXiv:2310.10701v3 jueli

Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods

凭借广泛的预训练知识和高水平的通用能力，大型语言模型（LLM）成为在多任务学习、样本效率和任务规划等方面增强强化学习（RL）的有前途的途径。在本次调查中，我们对$\textit{LLM-enhanced RL}$中的现有文献进行了全面回顾，并总结了其与传统强化学习方法相比的特点，旨在明确未来研究的研究范围和方向。利用经典的主体-环境交互范式，我们提出了一种结构化分类法，对 RL 中的 LLM 功能进行系统分类，包括四个角色：信息处理器、奖励设计者、决策者和生成者 ...

0 0 0 0 2024/12/19 arXiv:2404.00282v3 jueli

Multi-Agent Consensus Seeking via Large Language Models

由大型语言模型（LLM）驱动的多智能体系统已经显示出以协作方式解决复杂任务的良好能力。这项工作考虑了多智能体协作中的一个基本问题：寻求共识。当多个智能体一起工作时，我们感兴趣的是它们如何通过智能体间协商达成共识 ...

0 0 0 0 2024/12/19 arXiv:2310.20151v1 jueli

How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments

决策是一个复杂的过程，需要多种能力，这使其成为评估大型语言模型（LLM）的绝佳框架。研究人员通过博弈论的视角研究了 LLM 的决策。然而，现有的评估主要集中在 LLM 与另一名 LLM 竞争的两人场景上 ...

0 0 0 0 2024/12/19 arXiv:2403.11807v4 jueli

MetaReflection: Learning Instructions for Language Agents using Past Reflections

大型语言模型 (LLM) 的流行开启了语言代理解决各种任务的新时代。虽然当代前沿 LLM 有足够的能力为相当好的语言代理提供支持，但封闭的 API 模型使得它们在表现不佳的情况下很难改进。为了解决这个问题，最近的工作探索了使用自我反思和即时优化等技术来提高性能的方法 ...

0 0 0 0 2024/12/14 arXiv:2405.13009v2 jueli

ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

大型语言模型 (LLM) 的一个广泛用例是目标导向的决策任务（或“代理”任务），其中 LLM 不仅需要为给定的提示生成补全，还需要针对多个问题做出智能决策。 -转向交互来完成任务（例如，与网络交互、使用工具或提供客户支持时） ...

0 0 0 0 2024/12/14 arXiv:2402.19446v1 jueli

Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

尽管大型语言模型（LLM）在各种任务上具有令人印象深刻的能力，但它们仍然难以处理涉及复杂推理和规划的场景。最近的工作提出了先进的提示技术以及使用高质量数据进行大规模以增强LLM推理能力的必要性。然而，这些方法本质上受到了数据可用性和质量的限制…… ...

0 0 0 0 2024/12/13 arXiv:2404.12253v2 jueli

Tree-Planner: Efficient Close-loop Task Planning with Large Language Models

本文研究闭环任务规划，它是指生成一系列技能（计划）以完成特定目标，同时根据实时观察调整计划的过程。最近，由于其卓越的性能和用户友好性，促使大型语言模型（LLM）迭代生成动作已成为一种流行的范例。然而，这种范式受到两个低效率的困扰：高 Token 消耗和冗余纠错，这两者都阻碍了其大规模测试和应用程序的可扩展性 ...

0 0 0 0 2024/11/26 arXiv:2310.08582v2 jueli

ToolPlanner: A Tool Augmented LLM for Multi Granularity Instructions with Path Planning and Feedback

最近，工具增强的 LLM 受到越来越多的关注。根据指令，工具增强的 LLM 可以与各种外部工具进行多轮交互并提供最终答案。然而，以前的 LLM 接受的培训过于详细，其中包括 API 名称或参数，而真正的用户不会明确提及这些 API 详细信息 ...

0 0 0 0 2024/11/21 arXiv:2409.14826v3 jueli