
本文的第一作者Cao Yukang是Nanyang技术大学MMLAB的博士后研究员。它的研究讲话是3D/4D重建和一代,人类运动/视频生成,图像生成和版本。如果本文的作者Chenyang是Nanjing大学的助理教授。它的研究地址是图像/视频的产生,以及生成模型的优化和加速。在图像处理领域,“图像转换”是一项常见且创意的任务。软过渡允许两张照片自然地以不同的样式组合,从而产生了令人印象深刻的中间图像。您可能已经在动画,电影效果或照片编辑中看到了它。过去,该技术通常基于复杂图像和颜色插值规则的对齐算法,这阻碍了复杂纹理和多种语义图像图像的管理。深度学习方法,例如gan和近年来,VAE取得了巨大的进步,但是在现实世界的图像中,他们面临着高训练成本,对数据的强烈依赖和不稳定投资等问题。为了实现高质量图像的转换,研究人员试图使用较大的模型,例如稳定的扩散和夹子。但是,即使是前卫 - garde解决方案也具有高训练成本和较低的适应性,这仍然是一个挑战。那么,是否可以将培训完全搁置一旁?您不信任先前要求和其他注释的模型吗?只能使用两张图像有效而自然地完成转换?为了解决这一挑战,南京大学技术大学的研究团队,南京大学和香港大学中国大学提出了一种全新的方法:自由变形。这种方法不仅可以在没有训练或步骤的情况下实现图像转换的效果,而且还会产生柔软自然的过渡pro具有不同语义和设计的图像之间的尾声,为不进行训练的图像转换开辟了新的可能性。您想获得有关Freemorph的技术细节的更多信息吗?我们已经为您准备了一个完整的文档,一个项目主页和一个代码存储库!论文地址:https://arxiv.org/abs/2507.01953项目地址:https://yukangcao.github.io/freemorph/github:https://github.com/yukangcao/yukangcao/yukangcao/fremorph介绍最近视觉模型的视觉模型,视觉模型的视觉模型,以视觉模型的视觉模型播出。等)和陷阱体系结构(例如PixArt-α,Flux等)在从文本指示中产生高图像时显示出令人惊讶的特征。这些技术的进步也为改变生成的图像的方法奠定了创新的基础。 Wang Golland [1]使用基于夹的文本的局部线性特性,以实现通过Interpolatio的软转变n可能的图像特征。基于此,Impus [2]在几个阶段引入了一个培训框架,其中包括文本嵌入式和洛拉模块训练的优化,以更好地捕获语义。该方法在视觉上非常好,但是每种情况都需要大约30分钟的训练时间。 Difmorpher [3]使用潜在噪声插值,并引入自适应实例(ADAIN)的归一化以提高性能。但是,对于具有各种语义和复杂设计的图像,这些方法仍然是不合时宜的,并且限制了实用性。为了解决这些问题,我们的目标是在不调整参数的情况下实现图像的变形。但是,这个目标也引起了两个重要的挑战。 1)图像转换过程中的功能损失:一般而言,面对这个问题,每个人的第一个反应是将入口图像转换为先前训练的潜在特征扩散模型并通过球形插值实现图像的转化。但是,尽管这种方法似乎很简单,但在扩散模型中删除多个步骤的非线性过程导致了产生的中间变形的不连续图像。同时,扩散模型本身的先前训练的特征也倾向于失去身份信息。 2)很难实现连贯的过渡。扩散扩散模型本身具有清晰的“变化趋势”。这需要实现软变形序列的其他机制。为了解决这两个问题,FreeMorph实现了图像转换方法而不训练改善了传播传播模型的护理机制。 1)引导感知球的插值显式。s。 2)逐步面向变化的趋势:我们提出了一种新的变化变化的方法,以实现柔滑的过渡。该方法结合了两个自催化模块,每个模块都来自两个输入图像,以实现受控且一致的过渡,同时尊重这两个条目。为了进一步提高产生的成像序列的质量,我们设计了改进的反向消除和正向传播过程,将这些创新组件与DDIM框架完美地集成到原始框架中。专门收集了一个新的评估数据集,以以现有方式整合乘以来之并参考点。数据集包含不同类别的四组图像对,根据图像语义和设计相似性进行分配。 Freemorph:我们提出了图像转换框架的两个模块,而没有训练给定两个输入图像。 (1)指导的球形插值和(2)将面向阶段的趋势更改为阶段(阿比利保持身份特征)和一致性(软转换)以改善指导。此外,我意识到,简单地将这两个模块中的任何一个都应用于消除步骤并不理想。因此,如先前的算法所示,在现有图像梯度方法中,传播向前和反向消除过程为开始插值提供了一种改进的方法[25,47,49]通常需要对每个输入图像的低范围适应模块(LORA)进行训练,以改善每个输入图像,以提高半身理解,并提高半身理解并实现软性传递。但是,这种方法通常效率低下,需要大量时间,并且要处理不同图像的语义和设计。在本文中,我们提出了一种基于先前训练的稳定扩散模型的图像梯度的方法,该方法不包含可调参数。使用DDIM的容量(在公式2中显示)进行图像和插值的投资,可能会支持DER拍摄进入图像并应用球形插值。在实验中,建立的j = 5。但是,这是一个中间图像索引,但是通过投资直接在图像中插值的这些潜在特征,它通常会导致错误的矛盾和身份信息的丢失(请参见下图)。此问题的途径是:1。删除多个步骤的过程是高度非线性的,并且导致生成的图像序列中的不连续性。 2。由于没有控制消除过程的明确指南,因此Modelor继承了先前训练的扩散模型偏差。球形特征的聚合:我们观察到,从先前的图像编辑技术中提取时,用特征替换钥匙和价值特征(K和V)可以显着改善图像转变的柔软性和信息信息的保留,但仍然存在一些缺陷(请参见上图)。受这个发现的启发,我们首先建议合并左图()的特征(),以提供删除多个步骤的过程的明确指南,因为我们最初使用护理机制右侧的图像。具体操作是:消除步骤t:1。输入图像以获得钥匙和价值特征(在训练前输入相应的潜在特征。更改均值和护理机制。相应地,入口前的电容是通过先验进行的自启动机制进行的。它已经进行了自体催化机制。已经发现,在限制中会有很大的变化,并且在预期的范围内会造成噪音。因此,在下图)。由于每个中间潜在噪声似乎非常相似,因此过渡中的过渡中。为了解决这个问题,我们提出了一种自催化机制。这种机制优先考虑潜在插值的潜在特征,以确保潜在噪声空间内的软转变。同时,在后阶段突出显示了输入图像,以维持信息识别操作。具体策略是:在反向消除阶段,我们将继续使用方程式5中描述的方法(左图和右图像函数的融合)。正向传播步骤使用通过修改自催化模块来实现的几种护理机制。也就是说,我们使用与所有中间步骤相对应的键和值的平均值()来计算注意力。d从左图的变化。一致和渐进的过渡。这个问题是由于缺乏右侧捕获的图像引起的。为此,我们提出了一种以步骤为导向的变化趋势,该趋势逐渐改变了输入图像()对生成过程的影响。这代表图像的总数(包括生成的J图像和输入图像2)。一般传播前进和反向消除过程:高频高斯噪声注入:如上所述,freemorph在正向扩散阶段和反向消除阶段都整合了左和右图像的特征。但是,我们可以看到这可能对生成过程施加过于严格的限制。为了缓解此问题并提高灵活性,我们建议将高斯噪声注入前进后,将高斯噪声注入潜在矢量Z的高频域。在这里,我们表示傅立叶快速和傅立叶快速变换的反向变换n,分别。显示一个随机采样噪声矢量,其中m是Z的高大尺寸的高通滤膜。一般过程:引导感知球不消除步骤,以改善成像烯的图像效应,以至于均匀地应用身体插值或面向阶段的趋势会导致次胃结果。为此,我们为扩散前进和反向消除过程开发了罚款。复杂方案:向前传播:上一步:使用标准的自我定义机制。从停止:应用由先验驱动的自关节机制(即平均中间状态的所有特征)。其余步骤:以速度实现定向变化趋势(动态混合物中左和右图的影响)。逆提取:上一步:使用逐步指导的趋势。从步骤中:应用特征融合的方法(即双图特征的平均融合)。直到最后一步:返回到E原始自催化机制(追逐最大的保真度)。这是一个超参数,其中t = 50是步骤的总数。实验的实验结果:以下图显示了自由吗啡产生的效果。这完美地说明了其产生高质量软过渡的能力。 Freemorph在各种情况下都脱颖而出。您可以使用各种语义和设计处理图像,并控制具有相似特征的图像。同时,该方法还可以有效地捕获微妙的变化,无论是不同的颜色蛋糕还是角色表示的细微差异,都可以准确地呈现。与其他图像转换方法的比较:下图显示了与现有图像转换方法的定性比较。有效图像转换的结果必须呈现从源图像(左)到目标图像(右)的渐进过渡,同时保留了E原始身份特征。根据该标准,可以获得以下观察结果:1。当涉及语义和设计显着差异的图像时,Indus [2]在身份功能丧失和非易身迁移方面存在问题。如下图所示,(i)生成的第三张图像从原始ID功能转移。 (ii)突变发生在产生的第三和第四张图像之间。 2。diffmorpher [3]实现了比通过的步骤更柔和的过渡,但是结果通常是模糊的,并且具有较低的一般质量(请参阅下图中的第一种情况)。 3。基本的SLERP方法(球形插值和DDIM过程)(单独使用)具有三种主要的不便:(i)由于缺乏明确的方向,很难对输入图像进行精确分析。相比之下,该方法始终表现出出色的性能,在软过渡特征方面具有很大的优势,并且很高 - 分辨率图像质量。总结本文提出了FreeMorph,这是一个没有参数设置的新过程。这可以在30秒内产生两个入口图像的软质转换。具体而言,此方法通过修改自催化模块来创新介绍显式图像指南。它的中央技术包括两个创新组件。先验球形特征和自催化机制的聚集机制。此外,我们提出了定向波动逐步导向的趋势,以使过渡地址与输入图像完全相同。改进的传播过程和反向消除也经过专门设计,以将先前的模块集成到原始的DDIM框架中。许多实验表明,自由形成可以克服具有明显优势的现有图像转换技术,并产生高忠诚度导致各种情况。限制和故障案件:我们的方法达到s现在的前卫 - 但仍然存在一些局限性。以下是某些失败的情况:1)当图像用较大的语义或设计差异处理时,该模型仍然可以产生一些合理的结果,但是过渡过程不够柔软并且存在突变。 2)由于我们的方法基于稳定的扩散,因此其固有的偏差也是遗传的,从而导致从图像的过渡会影响到人类四肢等结构时。参考文献[1]使用扩散模型之间的图像之间的插值。 ICML 2023研讨会。 [2] Imptation:使用扩散模型使用感知异质采样的图像转换。 ICLR2023。 [3] Difmorpher:解锁图像转化的传播模型的功能。 CVPR 2024