我们介绍了Pix2gestalt,这是一个用于零射击分段的框架,该框架学会了估计仅在闭塞后方部分可见的整个物体的形状和外观。通过利用大规模扩散模型并将其表示形式转移到此任务中,我们学习了一个有条件的扩散模型,用于重建挑战的零拍病案例中的整个对象,包括破坏自然和物理先验的示例,例如艺术。作为培训数据,我们使用了包含遮挡对象与整个对应物配对的合成策划数据集 ...
在GPT4中的生成模型中,最近的巨大突破已在所有应用中促成了这些模型的无处不在使用。医疗保健是一个可以改善人工智能(AI)的领域。医生遭遇的注释生成任务及其相关的电子病历文档是医生最艰巨的耗时任务之一 ...
部署在动态环境中的机器人不仅必须遵循各种语言说明,而且在用户意图中期执行中更改时会灵活适应。尽管最近的视觉语言动作(VLA)模型具有高级的多任务学习和指令,但他们通常会假定静态任务意图,在持续执行期间新说明到达时未能做出响应。这种限制阻碍了在动态环境(例如零售或家庭环境)中的自然和强大的相互作用,在零售或家庭环境中,实时意图变化很常见 ...
本文研究了使用增强学习(RL)增强大语言模型(LLM)代理的推理能力的方法。具体而言,我们专注于多转弯工具使用的方案,可以自然地将其建模为马尔可夫决策过程(MDP)。尽管现有的方法经常在强盗设置中对轨迹级优势估算进行多转弯LLM代理进行训练,但他们在多个决策步骤中为转向级的信用分配而苦苦挣扎,从而将其在多转弯推理任务上的绩效限制了 ...
最近生成自然语言解释不仅在提供可解释的解释方面表现出非常有希望的结果,而且还提供了其他信息和预测的监督。但是,现有的方法通常需要大量的人类注释的解释来进行培训,同时收集大量解释不仅耗时,而且很昂贵。在本文中,我们为可解释的自然语言理解开发了一个通用框架,该框架仅需要一小部分人注释的培训解释 ...
在本文中,我们通过根据自我发作机制捕获丰富的上下文依赖性来解决场景细分任务。与以前通过多尺度功能融合捕获上下文的作品不同,我们建议一个双重注意网络(DANET)将本地特征及其全球依赖性自适应地整合在一起。具体而言,我们在传统扩张的FCN之上附加了两种类型的注意模块,它们分别对空间和信道维度的语义相互依赖性进行了建模 ...
在生产中,多模态大语言模型(MLLM)有望支持互换图像和文本模态的多轮查询。然而,当前使用视觉问答(VQA)数据集训练的 MLLM 可能会出现退化,因为 VQA 数据集缺乏训练底层语言模型的原始文本指令数据集的多样性和复杂性。为了解决这种具有挑战性的退化问题,我们首先收集一个轻量级(6k 条目)VQA 偏好数据集,其中 Gemini 以细粒度方式对 5 个质量指标的答案进行注释,并研究标准监督微调 ...
检索演出的一代(RAG)在开放域问答中表现出在任务之间的出色表现。但是,传统的搜索引擎可能会检索浅含量,从而限制了LLM处理复杂的多层信息的能力。为了解决这个问题,我们介绍了WebWalkerQA,这是一种基准测试,旨在评估LLMS执行Web遍历的能力 ...