arxiv Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study

名称
Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study
首页
https://yiyibooks.cn/arxiv/2403.03186v2/index.html
原始地址
https://arxiv.org/abs/2403.03186
描述
尽管在特定任务和场景中取得了成功,但现有的基础代理在大型模型(LM)和高级工具的支持下,仍然无法推广到不同的场景,这主要是由于不同场景的观察和行动存在巨大差异。在这项工作中,我们提出了通用计算机控制(GCC)设置:构建可以通过仅将计算机的屏幕图像(可能还有音频)作为输入并生成键盘和鼠标操作作为输出来掌握任何计算机任务的基础代理,类似于到人机交互。实现GCC的主要挑战是:1)决策的多模态观察,2)键盘和鼠标精确控制的要求,3)长期记忆和推理的需要,4)高效探索的能力和自我完善 ...