最近的文本对图像(T2I)扩散模型在产生给定文本推出作为输入的高质量图像方面取得了显着的进步。但是,这些模型无法传达由布局指令指定的适当空间组成。在这项工作中,我们使用扩散模型探测了零拍的T2I生成,即生成与输入布局信息相对应的图像,而无需训练辅助模块或燃烧扩散模型 ...
最近的文本到图像扩散模型在产生文本的高分辨率图像方面表现出色,但要精确控制空间组成和对象计数。为了应对这些挑战,一些研究开发了将布局指令纳入文本图模型的布局到图像(L2I)方法。但是,现有的L2I方法通常需要进行微调的预验证参数或训练扩散模型的其他控制模块 ...
算法公平从传统上采用了种族色盲的数学方便观点(即,差异不知道的待遇) ...
四足动物在穿越复杂的地形方面表现出显着的敏捷性和鲁棒性。但是,他们在动态对象相互作用中挣扎,必须精确地感知和控制接触。为了弥合这一差距,我们提出了Limotouch,该系统使四足动物具有触觉感知以解决这一类别中特别具有挑战性的任务:不安全的圆柱体对象的长距离运输,通常需要自定义安装或固定机制以保持稳定性 ...
Large-scale text-to-image diffusion models have significantly improved the state of the art in generative image modelling and allow for an intuitive and powerful user interface to drive the image gene ...
Text-to-image customization, which takes given texts and images depicting given subjects as inputs, aims to synthesize new images that align with both text semantics and subject appearance. This task ...
现有的文本对图像扩散模型难以合成逼真的图像给定的图像,每个文本提示都为特定图像区域提供了详细的描述。为了解决这个问题,我们提出了一种无训练的方法,该方法是一种适应预先训练的文本对图像模型,以处理此类密集字幕,同时提供对场景布局的控制。我们首先分析生成的图像布局与预训练模型的中间注意图之间的关系 ...
图像质量评估(IQA)的深度学习方法由于现有数据集的尺寸较小而受到限制。广泛的数据集需要大量资源来生成可发布的内容和准确注释。我们提出了一种系统且可扩展的方法来创建KONIQ-10K,这是迄今为止最大的IQA数据集,由10,073个质量评分的图像组成 ...