文本对象重新识别(REID)根据文本描述检索行人图像。手动注释文本描述是耗时的,限制了现有数据集的规模,因此限制了REID模型的概括能力。结果,我们研究了可转移的文本对图像的REID问题,在该问题上,我们在建议的大规模数据库上训练模型,然后将其直接部署到各种数据集以进行评估 ...
扩散模型在面部恢复方面表现出了令人印象深刻的性能。然而,他们的多步推理过程仍然在计算密集型上,限制了它们在现实情况下的适用性。此外,现有的方法通常难以产生和谐,现实且与主体的身份一致的面部图像 ...
统一的离散扩散模型由于其固有的自我校正能力而具有快速文本生成的希望。但是,它们通常超过自回归模型和掩盖扩散模型的表现。在这项工作中,我们通过利用关键洞察力来缩小这种性能差距:统一的扩散过程自然而然地从潜在的高斯扩散中出现 ...
大规模3D数据集的稀缺性阻碍了3D视觉学习的进展。我们介绍了Univlg,这是一种统一的架构,用于2D和3D Vision语言理解,弥合了现有的2D模型与体现系统中可用的丰富3D感觉数据之间的差距。我们的方法将大多数模型权重从2D和3D Vision-Language数据的预训练的2D模型和火车中引起了初始化 ...
为了启用有关长期理解的构建和测试模型,我们引入了质量,这是一个多项选择的QA数据集,其平均长度约为5,000 Token ,比典型的当前模型可以处理。与先前的段落工作不同,我们的问题是由阅读整个段落的贡献者编写和验证的,而不是依靠摘要或摘录。此外,只有一半的问题是通过在紧迫的时间限制下工作的注释者来回答的,这表明浏览和简单的搜索不足以始终如一地表现良好 ...
基于扩散的语言模型通过实现并行和可控的生成提供了自动回归(AR)模型的引人注目的替代方案。在这个模型家族中,掩盖的扩散模型(MDMS)的性能最强,但在困惑中仍然表现不佳,并且缺乏关键的推理时间效率功能,尤其是KV缓存。在这项工作中,我们介绍了ESO-LMS,这是一个融合AR和MDM范式的新型模型家族,在克服各自的局限性的同时,可以在其困惑之间平稳插值 ...
文本到图像的人重新识别(REID)旨在根据文本描述检索有关人员的图像。该任务的主要挑战是手动注释大规模数据库的高成本,这影响了REID模型的概括能力。最近的作品通过利用多模式大语言模型(MLLM)自动描述行人图像来解决此问题 ...
一个基于检索的提示生成(RAG)的问题避开(QA)系统通过根据用户查询检索相关文档来增强大语言模型的知识。用户查询和文档短语之间的差异通常需要查询重写。但是,在专门的领域中,重写器模型可能由于特定于领域的知识而挣扎 ...