发布时间:2023-03-03 19:57:42 来源:本站 作者:admin
如今,基于文本的生成图片模型能够创建范围广泛的逼真图像。 最近的许多努力已经扩展了文本到图像模型,通过添加分割图、场景图、绘图、深度图和修复掩码等条件或在少量特定主题数据上微调预训练模型来进一步完成自定义生成 . 然而,在将这些模型应用于实际应用时,设计人员仍然需要对它们进行更多控制。 例如,在现实世界的设计项目中,生成模型通常需要帮助才能可靠地生成同时具有语义、形式、样式和颜色需求的图片。
来自阿里巴巴中国的研究人员介绍了 Composer。 它是一个大型(50 亿个参数)可控扩散模型,在数十亿(文本、图像)对上进行训练。 他们争辩说,组合性——而不仅仅是调节——是控制图像形成的秘诀。 后者引入了许多可能的组合,可以极大地扩大控制空间。 在语言和场景理解学科中研究了类似的想法。 在这些领域中,组合性被称为组合泛化,即从有限数量的可用组件中识别或创建有限数量的独特组合的能力。 基于前面提到的概念,他们在这项工作中为 Composer 提供了组合生成模型的实现。 他们将能够平滑地重新组合视觉元素以创建新图片的生成模型称为合成生成模型。 他们使用具有 UNet 主干的多条件扩散模型来实现 Composer。 每个 Composer 训练迭代都有两个阶段:分解阶段,其中计算机视觉算法或预训练模型用于将图像批次分解为单独的表示,以及组合阶段,其中 Composer 被优化以从表示子集重建图像。
Composer可以从看不见的表示组合中解码出独特的图片,这些组合可能来自多个来源,并且可能彼此不兼容,而只是接受了重建目的的训练。 尽管 Composer 的概念简单且易于使用,但它却出奇地有效,能够在传统和以前未开发的图像生成和处理任务上实现令人鼓舞的性能,例如但不限于文本到图像生成、多模态条件图像生成、样式转换 、姿势转移、图像平移、虚拟试穿、来自各个方向的插值和图像变化、通过修改草图进行图像重新配置、依赖图像平移和图像平移。
此外,Composer 可以将上述所有操作的可编辑区域限制在用户指定的区域,这比传统的修复操作更灵活,同时通过引入遮罩的正交表示来防止该区域之外的像素修改。 尽管经过多任务训练,Composer 在 COCO 数据集上的文本到图像合成中获得了 9.2 的零样本 FID,同时使用标题作为标准,展示了其提供出色结果的能力。 他们的分解-组合范式表明,当条件是可组合的而不是雇佣的个体时,生成模型的控制空间可能会大大增加。 因此,可以使用 Composer 架构重铸各种传统的生成任务,并揭示迄今为止未被认可的生成能力,从而激发对可能获得更高可控性的各种分解技术的更多研究。 此外,他们基于无分类器和双向指导,展示了多种使用 Composer 进行不同图片制作和修改任务的方法,为后续研究提供了有益的参考。 在公开工作之前,他们计划仔细检查 Composer 如何减少滥用的危险,并可能提供过滤版本。