发布时间:2023-03-15 22:13:04 来源:本站 作者:admin
文本到图像的扩散模型通常在生成图像时对世界做出隐含的假设。虽然一些假设是有用的(例如,天空是蓝色的),但它们也可能是过时的、不正确的,或者反映了培训数据中存在的社会偏见。因此,需要控制这些假设,而不需要明确的用户输入或昂贵的重新训练。在这项工作中,我们旨在编辑预先训练的扩散模型中的给定隐式假设。我们的文本到图像模型编辑方法,简称TIME,接收一对输入:在指定提示下的“源”,模型对此进行隐式假设(例如,“一束玫瑰”),以及描述相同设置但具有指定所需属性的“目的地”提示(例如“一束蓝色玫瑰”)。然后,TIME更新模型的交叉关注层,因为这些层为文本标记分配视觉意义。我们编辑这些层中的投影矩阵,以便将源提示投影到目标提示附近。我们的方法效率很高,因为它只在一秒钟内修改了2.2%的模型参数。为了评估模型编辑方法,我们引入了TIMED(TIME数据集),其中包含来自不同域的147个源和目标提示对。我们的实验(使用稳定扩散)表明,TIME在模型编辑中是成功的,很好地概括了编辑过程中看不到的相关提示,并对不相关的世代施加了最小的影响。