arxiv Autonomous Evaluation and Refinement of Digital Agents

名称
Autonomous Evaluation and Refinement of Digital Agents
首页
https://yiyibooks.cn/arxiv/2404.06474v2/index.html
原始地址
https://arxiv.org/abs/2404.06474
描述
我们表明,领域通用自动评估器可以显着提高网络导航和设备控制代理的性能。我们尝试了多种评估模型,在推理成本、设计模块化和准确性之间进行权衡。我们在几个流行的数字代理基准测试中验证了这些模型的性能,发现介于 74 之间 ...