大型语言模型(LLM)的进步使得聊天机器人系统的性能显着增强。许多研究人员致力于开发为聊天机器人带来特性。虽然已经有使用 LLM 开发角色驱动的聊天机器人的商业产品,但值得注意的是,该领域的学术研究仍然相对匮乏 ...

0 0 0 0 2024/04/01 arXiv:2403.12368v1 zhouzhou

通过简单地编写提示,开发人员可以使用大型语言模型 (LLM) 制作新颖的生成应用程序原型。然而,为了将原型细化为产品,开发人员必须通过评估输出来诊断弱点来迭代修改提示。形成性访谈(N = 8)显示,开发人员在评估特定上下文和主观标准时投入了大量精力来手动评估输出 ...

0 0 0 0 2024/03/31 arXiv:2309.13633v2 zhouzhou

我们认为,许多一般性的评估问题可以通过投票理论的视角来看待。每个任务都被解释为一个单独的投票者,只需要对代理进行顺序排名或成对比较即可产生总体评估。通过将聚合器视为社会福利函数,我们能够利用社会选择理论几个世纪的研究来推导具有公理基础的原则性评估框架 ...

0 0 0 0 2024/03/31 arXiv:2312.03121v2 zhouzhou

当代人工智能研究的一个关键目标是开发精通多智能体协调的智能体,从而实现与人类和其他系统的有效协作。大型语言模型(LLM)具有以类似人类的方式理解、生成和解释语言的显着能力,是开发此类代理的有希望的候选者。在这项研究中,我们构建并评估了在各种协调场景中使用 LLM 制作的代理的有效性 ...

0 0 0 0 2024/03/31 arXiv:2310.03903v1 zhouzhou

本研究引入了一个新的长格式数据库问答数据集,旨在评估大型语言模型 (LLM) 如何与 SQL 解释器交互。这项任务要求 LLM 有策略地生成多个 SQL 查询,以从数据库中检索足够的数据,根据所获取的上下文进行推理,并将它们合成为全面的分析叙述。我们的研究结果强调,即使对于最先进的 GPT-4 模型,这项任务也带来了巨大的挑战 ...

0 0 0 0 2024/03/31 arXiv:2311.09721v1 zhouzhou

文本评估历来提出了重大挑战,通常需要大量的劳动力和时间成本。随着大型语言模型 (LLM) 的出现,研究人员探索了 LLM 作为人类评估替代方案的潜力。虽然这些基于单代理的方法显示出希望,但实验结果表明,需要进一步的进步来缩小其当前有效性和人类水平评估质量之间的差距 ...

0 0 0 0 2024/03/31 arXiv:2308.07201v1 zhouzhou

在本报告中,我们探讨了语言模型智能体获取资源、创建自身副本以及适应在野外遇到的新挑战的能力。我们将这组功能称为“自主复制和适应”或 ARA。我们相信,具有 ARA 能力的系统可能会产生广泛且难以预料的后果,并且测量和预测 ARA 可能有助于告知有关安全、监控和协调的措施 ...

0 0 0 0 2024/03/31 arXiv:2312.11671v2 zhouzhou

本文开发了基于代理的模拟,以评估基于代理的 AMI 场景。许多 AmI 应用程序是通过代理实现的,但并未将它们与任何其他现有替代方案进行比较,以评估使用它们的相对优势。 Netlogo 中开发的提案模拟环境使用两个评估标准来分析这些好处:首先,测量代理在执行过程中对不同类型愿望的满意度 ...

0 0 0 0 2024/03/31 arXiv:2401.14153v1 zhouzhou

尽管大型语言模型 (LLM) 在各种任务和场景中都有实用性,但开发一种跨不同环境可靠评估 LLM 的方法仍然具有挑战性。现代评估方法通常使用 LLM 来评估 LLM 产生的反应。然而,为评估这些 LLM 作为评估者的有效性而进行的元评估通常受到现有基准覆盖范围的限制,或者需要大量的人工注释 ...

0 0 0 0 2024/03/31 arXiv:2401.16788v1 zhouzhou

由于数据污染问题,大语言模型(LLM)的评估引起了社会的高度关注。现有的工作使用针对特定任务的明确定义的算法设计了评估协议,这些协议无法轻松扩展到不同的场景。而且,目前的评估基准只能提供总体基准结果,无法支持对LLM能力进行细粒度、多方面的分析 ...

0 0 0 0 2024/03/31 arXiv:2402.14865v1 zhouzhou

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)