发布时间:2023-05-05 22:55:37 来源:本站 作者:admin
Stability AI 与其人工智能研究实验室 DeepFloyd 合作,发布了一项名为 DeepFloyd IF 的新技术。 这种先进的文本到图像模型旨在从文本输入中生成高质量图像。
DeepFloyd IF 模型使用 T5-XXL-1.1 语言模型作为文本编码器来帮助理解文本提示。 交叉注意层也被用来更好地对齐文本提示和生成的图像。
DeepFloyd IF 最令人印象深刻的功能之一是它能够准确地应用文本描述来生成具有不同空间关系的各种对象的图像,这对其他文本到图像模型来说一直是一个挑战。
此外,该模型生成的图像具有高度的真实感,这反映在其在 COCO 数据集上令人印象深刻的零样本 FID 得分 6.66 上。 该模型还可以生成具有非标准纵横比的图像,包括垂直或水平方向和标准方形纵横比。
DeepFloyd IF 模型的图像到图像的转换
除了文本到图像的生成,DeepFloyd IF 还提供零样本图像到图像的转换。 这是通过将原始图像的大小调整为 64 像素,通过前向扩散添加噪声,并使用带有新提示的后向扩散来对图像进行去噪来实现的。
可以通过提示文本描述通过超分辨率模块修改样式。 这种方法允许修改输出图像中的样式、图案和细节,同时保持源图像的主要形式,而无需微调。
生成高质量图像的过程
DeepFloyd IF 模型分三个阶段工作,根据文本提示生成高质量图像。 冻结的 T5-XXL 语言模型在第一阶段将文本提示转换为定性表示。 然后,在第二阶段,应用基础扩散模型将定性文本转换为 64×64 图像,然后使用两个文本条件超分辨率模型将其放大到 256×256。
在该过程的第三阶段,使用最终模型将图像增强为清晰、高质量的 1024×1024 分辨率。 IF 模型包括不同版本的基础模型和超分辨率模型,它们具有其他参数。
虽然第三阶段模型尚未可用,但可以使用其他高级模型,如 Stable Diffusion x4 Upscaler。
稳定性 AI DeepFloyd IF
Stability AI DeepFloyd IF 能够将输出图像扩展到更高分辨率 - 图片由 Stability AI 提供
训练数据集和许可
DeepFloyd IF 在名为 LAION-A 的高质量自定义数据集上进行了训练,该数据集包含 10 亿对(图像、文本)。 该数据集是 LAION-5B 数据集英语部分的美学子集,并且使用自定义过滤器过滤数据以删除不适当的内容。
该模型最初是根据研究许可发布的,创建者欢迎反馈以提高模型的性能和可扩展性。 该模型可用于各种领域,例如艺术、设计、讲故事、虚拟现实和可访问性。
DeepFloyd IF 模型在文本到图像生成领域提供了一个有前途的进步。 其令人印象深刻的功能和潜在应用使其成为各个行业研究人员和专业人士的宝贵资产。
该模型在非商业、研究许可许可下的可用性以及创建者在未来开源该模型的承诺符合 Stability AI 与更广泛的研究社区共享创新技术的目标。
创建者欢迎与模型的技术、学术和伦理方面相关的反馈和公开讨论,这些可以通过模型的权重、模型卡片和 GitHub 上可用的代码以及通过为每个人提供的 Gradio 演示来访问。