- 名称
- A Survey on Vision-Language-Action Models: An Action Tokenization Perspective
- 描述
视觉和语言基础模型在多模式理解,推理和发电中的显着进步引发了越来越多的努力,将这种智力扩展到物理世界,从而助长了视觉语言行动(VLA)模型。尽管看似多样化的方法,但我们观察到当前的VLA模型可以在一个框架下统一:视觉和语言输入是由一系列VLA模块处理的,生成了\ textit {Action Tokens}的链条,该链逐渐编码了更接地和可动的信息,最终使可行的动作产生了可执行的动作。我们进一步确定,区分VLA模型的主要设计选择在于如何制定动作 Token ,可以将其分类为语言描述,代码,负担能力,轨迹,目标状态,潜在表示,原始动作和推理 ...