我们提出了Lightstereo,这是一个尖端的立体声匹配网络,该网络旨在加速匹配过程。 LightStereo偏离了依赖计算密集型4D成本的常规方法学,采用3D成本量作为轻量级替代方案。尽管以前曾探索过类似的方法,但我们的突破在于通过专门关注3D成本量的通道维度来提高性能,其中匹配成本的分布被封装 ...
最近的开放式摄取人类对象相互作用(OV-HOI)检测方法主要依赖于大语言模型(LLM)来生成辅助描述,并利用从剪辑中蒸馏出来的知识来检测看不见的交互类别。尽管它们有效,但这些方法仍面临两个挑战:(1)由于依赖文本对齐的最后一层视觉特征,特征颗粒状缺陷,导致忽视了中间层中关键的对象级细节; (2)语义相似性混乱,是由于剪辑对某些类别的固有偏见引起的,而LLM生成的描述仅基于标签,无法充分捕获类间的相 ...
在知识密集的任务中,尤其是在医学和法律等高风险领域中,不仅要检索相关信息,而且至关重要,而且要提供因果推理和解释性。大型语言模型(LLM)在自然语言理解和发电任务中取得了出色的表现。但是,他们经常受到限制,例如在纳入新知识,产生幻觉和解释其推理过程的困难之类的局限性 ...
熟练的机器人操纵受益于非划出(例如推动)和预智能之间的复杂协同作用(e ...
在个性化教育时代,llm),和生成式人工智能最近为生成类人解释、学习建议打开了新的大门。然而,在教育这样的敏感领域,它们的精确度还远未达到可接受的程度... ...
本文介绍了一种基于剪辑的无监督学习方法,用于无注释的多标签图像分类,包括三个阶段:初始化,训练和推理。在初始化阶段,我们充分利用了功能强大的剪辑模型,并提出了一种新的方法,以扩展基于全局本地图像文本相似性聚集的多标签预测的剪辑。更具体地说,我们将每个图像分为片段并利用剪辑,以生成整个图像(全局)以及每个片段(本地)的相似性向量 ...
我们专注于以目标为导向的握把的任务,在该任务中,机器人应该在混乱中掌握预分配的目标对象,并且需要一些预抓操作,例如推动以实现稳定的抓地力。但是,在此任务中,机器人仅在成功掌握目标对象时才从环境中获得积极的回报。此外,关节推动和抓住的伸长序列会使动作序列延伸,从而加剧了奖励延迟的问题 ...
在扩散模型的显着进步的推动下,文本到图像的生成取得了长足的进步,从而对生成的图像的自动质量评估产生了紧迫的需求。当前的最新自动评估方法在很大程度上依赖于多模式的大语言模型(MLLM),尤其是强大的商业模型,例如GPT-4O。尽管这些模型非常有效,但它们的大量成本限制了大规模评估中的可伸缩性 ...