OpenAI的GPT4O模型的最新突破表现出了令人惊讶的良好能力在图像生成和编辑中,从而引起了社区的极大兴奋。该技术报告介绍了第一观评估基准(命名为GPT-Imgeval),在三个关键维度上进行了定量和质量地诊断GPT-4O的性能:(1)生成质量,(2)编辑能力和(3)世界知识知识的语义合成。在这三个任务中,GPT-4O表现出强劲的性能,在图像生成控制和输出质量中都显着超过了现有方法,同时还展示了出色的知识推理能力 ...

0 0 0 0 2025/04/07 arXiv:2504.02782v1 wuyang.a

我们介绍了PhotoDoodle,这是一个新颖的图像编辑框架,旨在通过使艺术家能够将装饰元素叠加到照片上来促进照片涂鸦。照片doodling具有挑战性,因为插入的元素必须与背景无缝集成,需要逼真的融合,透视图和上下文的连贯性。此外,必须在没有失真的情况下保存背景,并且必须从有限的培训数据中有效地捕获艺术家的独特风格 ...

0 0 0 0 2025/03/04 arXiv:2502.14397v2 wuyang.a

我们提出Tokenverse-一种多概念个性化的方法,利用了预先训练的文本对图像扩散模型。我们的框架可以将复杂的视觉元素和属性从单个图像中删除,同时可以从多个图像中提取的概念的无缝插件生成。与现有作品相反,Tokenverse可以处理各个具有多个概念的图像,并支持广泛的概念,包括对象,配件,材料,姿势和照明 ...

0 0 0 0 2025/01/24 arXiv:2501.12224v1 wuyang.a

检测有益的特征交互在推荐系统中至关重要,现有方法通过检查所有可能的特征交互来实现这一点。然而,检查所有可能的高阶特征交互的成本是令人望而却步的(随着阶数的增加呈指数增长)。因此,现有的方法只能检测有限的顺序(例如 ...

0 0 0 0 2024/04/20 arXiv:2206.13764v1 wuyang.a

合成满足用户需求的视觉内容通常需要对生成对象的姿势、形状、表情和布局进行灵活而精确的控制。现有方法通过手动注释的训练数据或先前的 3D 模型来获得生成对抗网络 (GAN) 的可控性,但这些方法通常缺乏灵活性、精确性和通用性。在这项工作中,我们研究了一种强大但较少探索的控制 GAN 的方法,即以用户交互的方式“拖动”图像的任何点以精确到达目标点,如图 1 所示 ...

0 0 0 0 2024/04/18 arXiv:2305.10973v1 wuyang.a

将定制文本对象合并到图像生成中在到图像生成中呈现出一个威胁的功能。然而,现有的基于优化和基于编码器的方法存在优化运行、身份保存不足以及普遍存在的复制粘贴为了克服这些限制,我们引入了 CustomNet,这是一种新颖的对象定制方法,它显着地将 3D 新颖视图合成功能合并到对象定制过程中...... ...

0 0 0 0 2024/10/08 arXiv:2310.19784v2 wuyang.a

通过文本反转、DreamBooth和LoRA等方法,个性化图像合成取得了重大进展。然而,它们在现实世界中的适用性受到高感官需求、冗长的音响过程以及对多个参考图像需求的阻碍。 ,现有的基于 ID 嵌入的方法虽然只需要一次前向推理,但也面临着挑战:它们或者需要对群体模型参数进行广泛的参数,或者缺乏与社区预训练模型的兼容性,或者无法保持较高的兼容性脸部保真度... ...

0 1 1 1 2024/11/07 arXiv:2401.07519v2 wuyang.a

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)