属性检测对于许多计算机视觉任务至关重要,因为它使系统能够描述诸如颜色,纹理和材料之类的属性。当前的方法通常依赖于固有限制的劳动密集型注释过程:可以在任意的细节级别上描述对象(例如 ...
0 0 0 2025/05/27 arXiv:2503.19145v1 ddbb
这项工作解决了完全弱监督的课程学习的任务,以学习语义细分,以学习仅使用图像级标签的基础和其他新颖类的分割。虽然课堂开发语义细分(CISS)对于在现实世界中处理多样化和新出现的物体至关重要,但传统的CISS方法需要昂贵的像素级注释来培训。为了克服这一局限性,最近提出了部分弱监督的方法 ...
0 0 0 2025/05/27 arXiv:2505.10781v1 Serendipity
经过有效培训时,变分自动编码器(VAE)既可以是强大的生成模型,也可以是自然语言的有效表示学习框架。在本文中,我们提出了第一个大规模语言VAE模型Optimus。首先在大型文本语料库中预先训练句子的通用潜在嵌入空间,然后对各种语言生成和理解任务进行微调 ...
0 0 0 2025/05/27 arXiv:2004.04092v4 旺角冰城
扩散模型是一类强大的生成模型,它们模拟随机微分方程(SDE)以生成噪声数据。尽管扩散模型取得了显着的进步,但由于高斯先前的假设,它们在未配对的图像到图像(I2i)翻译任务中存在局限性。 SchrödingerBridge(SB)学习了一个SDE,可以在两个任意分布之间进行翻译,并将其作为解决此问题的有吸引力的解决方案 ...
0 0 0 2025/05/27 arXiv:2305.15086v3 assassinkkkk
多样性控制是减轻偏置扩增和过滤气泡问题的重要任务。所需的多样性程度可能会根据用户的日常情绪或业务策略而波动。但是,现有控制多样性的方法通常缺乏灵活性,因为在培训期间决定了多样性,并且在推断过程中不容易修改 ...
0 0 0 2025/05/27 arXiv:2411.11240v2 pumpkin
强化学习(RL)已被广泛采用,以增强文本到SQL任务上大语言模型(LLMS)的性能。但是,现有方法通常依赖于基于执行或基于LLM的Bradley-Terry奖励模型。前者遭受了由重复的数据库调用引起的高执行延迟,而后者则施加了大量的GPU内存开销,这两者都大大阻碍了RL管道的效率和可扩展性 ...
0 0 0 2025/05/27 arXiv:2505.12380v1 qzw
在数字时代,双峰数据(例如图像文本对)已经变得越来越普遍。混合矢量查询(HVQ)是查询此类数据的有效方法,最近引起了研究人员的大量关注。它使用每个矢量相似性的加权总和来计算由两个向量表示的对象的相似性得分,并使用特定于查询的参数$ \ alpha $来确定权重 ...
0 0 0 2025/05/27 arXiv:2502.07343v1 李大人
语音驱动的3D面部动画合成在行业和研究中都是一项艰巨的任务。最近的方法主要集中于确定性深度学习方法,这意味着给定语音输入,输出始终相同。但是,实际上,整个面部的非语言面膜本质上是非确定性的 ...
0 0 0 2025/05/27 arXiv:2309.11306v1 Sparks

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)