大规模文本到图像的扩散模型取得了惊人的进步。然而,现状是单独使用文本输入,这会妨碍可控性。在这项工作中,我们提出了 GLIGEN(接地语言到图像生成),这是一种基于现有预训练文本到图像扩散模型并扩展其功能的新颖方法,使它们也能够以接地输入为条件 ...

0 0 0 0 2024/04/25 arXiv:2301.07093v2 tuoyuxiang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)