最近的文本对图像(T2I)扩散模型在产生给定文本推出作为输入的高质量图像方面取得了显着的进步。但是,这些模型无法传达由布局指令指定的适当空间组成。在这项工作中,我们使用扩散模型探测了零拍的T2I生成,即生成与输入布局信息相对应的图像,而无需训练辅助模块或燃烧扩散模型 ...
0 0 0 2025/09/13 arXiv:2310.08872v5 yisinoya
最近的文本到图像扩散模型在产生文本的高分辨率图像方面表现出色,但要精确控制空间组成和对象计数。为了应对这些挑战,一些研究开发了将布局指令纳入文本图模型的布局到图像(L2I)方法。但是,现有的L2I方法通常需要进行微调的预验证参数或训练扩散模型的其他控制模块 ...
0 0 0 2025/09/13 arXiv:2411.10495v1 yisinoya
算法公平从传统上采用了种族色盲的数学方便观点(即,差异不知道的待遇) ...
0 0 0 2025/09/13 arXiv:2502.01926v3 Yieww
四足动物在穿越复杂的地形方面表现出显着的敏捷性和鲁棒性。但是,他们在动态对象相互作用中挣扎,必须精确地感知和控制接触。为了弥合这一差距,我们提出了Limotouch,该系统使四足​​动物具有触觉感知以解决这一类别中特别具有挑战性的任务:不安全的圆柱体对象的长距离运输,通常需要自定义安装或固定机制以保持稳定性 ...
0 0 0 2025/09/13 arXiv:2505.23175v2 lrk
Large-scale text-to-image diffusion models have significantly improved the state of the art in generative image modelling and allow for an intuitive and powerful user interface to drive the image gene ...
0 0 0 2025/09/13 arXiv:2306.13754v1 yisinoya
Text-to-image customization, which takes given texts and images depicting given subjects as inputs, aims to synthesize new images that align with both text semantics and subject appearance. This task  ...
0 0 0 2025/09/13 arXiv:2408.09744v2 yisinoya
现有的文本对图像扩散模型难以合成逼真的图像给定的图像,每个文本提示都为特定图像区域提供了详细的描述。为了解决这个问题,我们提出了一种无训练的方法,该方法是一种适应预先训练的文本对图像模型,以处理此类密集字幕,同时提供对场景布局的控制。我们首先分析生成的图像布局与预训练模型的中间注意图之间的关系 ...
0 1 0 2025/09/13 arXiv:2308.12964v1 yisinoya
图像质量评估(IQA)的深度学习方法由于现有数据集的尺寸较小而受到限制。广泛的数据集需要大量资源来生成可发布的内容和准确注释。我们提出了一种系统且可扩展的方法来创建KONIQ-10K,这是迄今为止最大的IQA数据集,由10,073个质量评分的图像组成 ...
0 0 0 2025/09/13 arXiv:1910.06180v2 ReLU

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)