发布时间:2023-01-17 09:31:30 来源:本站 作者:admin
本文的目标是增强预先训练的文本到图像扩散模型,该模型具有开放词汇对象基础的能力,即同时为文本提示中描述的相应视觉实体生成图像和分割掩码。
我们做出了以下贡献:(i)我们在现有的扩散模型中插入了一个基础模块,该模块可以被训练以使扩散模型的视觉和文本嵌入空间仅与少量对象类别对齐;(ii)我们提出了一种用于构建数据集的自动流水线,该流水线由{图像、分割掩码、文本提示}三元组组成,以训练所提出的基础模块;(iii)我们评估了基于从文本到图像扩散模型生成的图像的开放词汇的性能,并表明该模块可以在训练时很好地分割类别之外的对象;(iv)我们采用引导扩散模型构建了一个合成的语义分割数据集,并表明在该数据集上训练标准分割模型在零镜头分割(ZS3)基准上表现出竞争性能,这为采用强大的扩散模型进行区分任务提供了新的机会。