无监督的视频对象细分(UVO)旨在通过视频发现对象并跟踪它们。对于准确的UVO,我们观察到是否可以在关键框架上找到精确的片段建议,随后的过程要简单得多。因此,我们建议使用最初从关键框架周围的多个框架生成的对象概率掩码构建的图形来推理关键帧提案,然后传播到关键帧 ...
3D机器人操作的模仿学习的最新进展已通过基于扩散的策略显示出令人鼓舞的结果。但是,实现人级敏捷需要无缝整合几何精度和语义理解。我们提出了G3Flow,这是一个构建实时语义流的新颖框架,这是一种动态,以对象为中心的3D语义表示,通过利用基础模型 ...
我们提出了2019年戴维斯对象细分的戴维斯挑战赛,这是戴维斯挑战系列的第三版,这是一项公共竞赛,旨在视频对象细分(VOS)。除了原始的半监督曲目和上一版中介绍的互动曲目外,今年还将推出一条新的无监督的多对象轨道。在新介绍的曲目中,要求参与者在每个图像上提供非重叠的对象建议,以及将它们链接在框架之间的标识符(i ...
SoftMax门控函数可以说是专家建模的混合物中最受欢迎的选择。尽管在实践中使用了广泛的使用,但软磁门的使用可能会导致专家之间不必要的竞争,这可能会导致代表性崩溃的不良现象,这是由于其固有的结构而导致的。作为响应,最近提出了乙状结肠门控函数作为替代方案,并已在经验上证明可以实现卓越的性能 ...
随着大语言模型(LLM)的发展,通过键值(KV)缓存压缩的有效推断引起了极大的关注,尤其是对于长篇小说生成。为了压缩KV缓存,最近的方法通过启发式排名以注意分数来识别关键的KV Token 。但是,这些方法通常很难准确地确定关键 Token ,因为它们在注意力评分中忽略了\ textit {时间模式},从而导致LLM性能的明显退化 ...
3D医学图像分割方法已经成功,但是它们对大量体素级注释数据的依赖是一个缺点,鉴于要获得这种注释的高成本,需要解决。半监督学习(SSL)通过培训大型未标记和小标记的数据集来解决此问题。最成功的SSL方法是基于一致性学习,该学习可以最大程度地减少从未标记数据的扰动视图中获得的模型响应之间的距离 ...
Python的动态打字系统提供了灵活性和表达性,但可能导致与类型相关的错误,从而促使自动类型推断需要增强类型的提示。尽管现有的基于学习的方法显示出有希望的推理准确性,但他们在全面处理各种类型的各种类型(包括复杂的通用类型和(看不见的)用户定义类型时,他们面临实践挑战。在本文中,我们介绍了Tiger,这是一个两阶段的生成 - 然后是级别(GTR)框架,旨在有效地处理Python的各种类型类别 ...
大型语言模型(LLMS)在语言任务中表现出色,尤其是在预训练后进行的微调。但是,它们的大量记忆和计算要求阻碍了实际应用。结构修剪会降低重量尺寸较小的结构修剪是一种解决方案 ...