我们提出了Unified-io,该模型执行了跨越经典计算机视觉任务任务的各种AI任务,包括姿势估计,对象检测,深度估计和图像产生,视觉和语言任务,例如区域字幕和引用表达,以自然语言处理任务,例如询问答案和paraphrasing。由于与每个任务有关的异质输入和输出,包括RGB图像,每个像素映射,二进制掩码,边界框和语言,为如此多的任务开发单个统一模型引起了独特的挑战。我们通过将每个受支持的输入和输出均匀地归因于一系列离散的词汇 Token 来实现这一统一 ...

0 0 0 0 2025/03/05 arXiv:2206.08916v2 niuzai