视频扩散模型的最新进展推动了视频编辑技术的快速进步。但是,由于幻觉对象和视觉伪像等问题,视频对象的删除是视频编辑的关键子任务,仍然具有挑战性。此外,现有方法通常依赖于计算昂贵的采样程序和无分类器指导(CFG),从而导致推理缓慢 ...
大型语言模型(LLMS)可能会使获得医学知识的机会民主化。尽管已经为利用和提高LLM的医学知识和推理能力而做出了许多努力,但由此产生的模型是封闭的(例如 ...
近年来,一般视觉基础模型(VFM)见证了采用的越来越多,尤其是作为流行多模式大型语言模型(MLLM)的图像编码器。但是,在没有语义上的细粒度监督的情况下,这些模型仍然在下游文本图像相关任务的背景下遇到基本预测错误,即 ...
人形机器人经常由于沉重的四肢运动而面临重大的平衡问题。在尝试动态运动或在具有不规则地形的环境中运行时,这些挑战尤其明显。为了应对这一挑战,本手稿使用基于模型的方法结合了基诺 - 动力学计划者和层次结构优化问题,为肢体繁重的人形机器人提出了一个全身控制框架 ...
与人类反馈一致的大型语言模型(LLM)最近引起了极大的关注。但是,它仍然容易受到越狱攻击的影响,在这种袭击中,对手操纵提示诱发有害产出。探索越狱攻击使我们能够调查LLM的脆弱性,并进一步指导我们增强其安全性 ...
Recent advances in video generation have been driven by diffusion models and autoregressive frameworks, yet critical challenges persist in harmonizing prompt adherence, visual quality, motion dynamics ...
基于 Transformer 的顺序推荐(SR)模型已取得了显着的成功。用于计算机视觉和自然语言处理的 Transformer 的自我注意力机制遇到了过度平衡的问题,即 ...
虽然监督学习在许多应用中取得了巨大进步,但无监督学习尚未得到如此广泛的采用,并且仍然是人工智能的一项重要且具有挑战性的工作。在这项工作中,我们提出了一种通用的无监督学习方法,从高维数据中提取有用的表示,我们称之为对比预测编码。我们模型的关键见解是通过使用强大的自回归模型预测潜在空间中的未来来学习此类表示... ...