- 名称
- Autonomous Evaluation and Refinement of Digital Agents
- 描述
我们表明,领域通用自动评估器可以显着提高网络导航和设备控制代理的性能。我们尝试了多种评估模型,在推理成本、设计模块化和准确性之间进行权衡。我们在几个流行的数字代理基准测试中验证了这些模型的性能,发现介于 74 之间 ...
我们表明,领域通用自动评估器可以显着提高网络导航和设备控制代理的性能。我们尝试了多种评估模型,在推理成本、设计模块化和准确性之间进行权衡。我们在几个流行的数字代理基准测试中验证了这些模型的性能,发现介于 74 之间 ...