一拖一拽小猫“活了”,Netflix 等噪声扭曲算法让运动控制更简单
在视频扩散生成的研究中,实现对视频中运动细节的精准控制而不影响图像质量,一直是学术界的追求。
来自 Netflix、Stony Brook 大学等领域的研究人员提出了一种全新的方法,即通过结构化潜在噪声的采样来实现运动控制。
该方法的实现相对简单,仅需对训练视频进行预处理,生成相应的结构化噪声。此过程不涉及扩散模型的创新,更不需要修改其架构或训练方案。
该研究引入了一种新型的噪声扭曲算法,具备超高速的特点,能够实现实时运行。此算法利用光流场推导的扭曲噪声取代了传统的随机时序高斯噪声,并保持空间高斯特性。由于算法的高效性,扭曲噪声可在极小成本下微调视频扩散基础模型。
这为用户提供了全面的运动控件方案,适用于局部物体运动、全局摄像机运动和运动迁移等多种场景。
同时,该算法兼具扭曲噪声的时间一致性和空间高斯性,确保每帧的像素质量得到保护,同时有效控制运动。
论文获取链接:https://arxiv.org/pdf/2501.08331
本研究的主要贡献包括:
创新性的视频扩散模型方法:提出了一种简单而新颖的方法,将运动控制转化为可用于噪声扭曲的流场,直接应用于潜在空间采样。这种方法不仅兼容任意视频扩散基础模型,还可与其他控制方式联合使用。
高效噪声变形算法:研发了高效的噪声变形算法,能够保持空间高斯性,并追踪跨帧时间运动流。这在微调运动可控的视频扩散模型时,使得成本降至最低,操作变得更加方便。
实验和用户研究充分展现了该方法在多种运动控制应用中的优越性,涵盖了局部物体运动控制、运动迁移至新场景及基于参考的全局摄像机运动控制等情境,并在像素质量、可控性、时间一致性和用户主观偏好等方面都表现出色。
Go-with-the-Flow
现有视频扩散模型存在一定局限性,研究者们提出了一种创新且简易的方法,旨在将运动控制视为结构化组件,纳入视频扩散模型潜在空间的无序状态。
具体而言,该方法将潜在噪声的时间分布关联起来。
起初,从二维高斯噪声片入手,将其与训练视频提取的光流场相结合,按时间顺序衔接形成扭曲噪声片,清晰展示出的流程见下图。
本文所创新的噪声扭曲算法实现速度极快,支持实时运行。
传统方法需从每个初始帧开始,对每帧施加复杂的扭曲操作,而本文的方法则通过迭代扭曲噪声,在连续帧之间实现目标。
具体操作中,研究者在像素层面精确追踪噪声及光流密度,并根据前向和后向光流,计算画面的扩展与收缩变化,进而确定噪声的扭曲方法。
此外,结合 HIWYN 提出的条件白噪声采样技术,确保算法在运行过程中持续维持高斯性。
在视频扩散推理阶段,所提方法表现出明显优势,能够根据不同类型的运动自动调整噪声变形,从而为各种运动控制应用提供一体化解决方案。
局部物体运动控制:用户只需提供拖动信号,即可灵活调整物体轮廓内的噪声元素,实现局部物体的精准运动。
全局相机运动控制:复用参考视频中的光流数据,进行输入噪声的扭曲处理,从而在不同文本描述或初始帧条件下重新生成视频。
任意运动传递:运动表达不仅限于常规光流,也支持3D渲染引擎生成的光流和深度变形等形式。
Go-with-the-Flow 的核心是噪声扭曲算法与视频扩散微调。
在噪声扭曲算法运行时,与扩散模型的训练流程不会互相干扰。研究团队利用此算法生成噪声模型,进而用于训练扩散模型。
本文的运动控制完全基于噪声初始化,没有在视频扩散模型中增加任何额外参数,这样既简化了模型结构,也提高了运行效果。
受 HIWYN 将噪声扭曲应用于图像扩散模型的启发,研究团队探索了将扭曲噪声作为视频生成模型中运动控制条件的新方法。
通过一个包含大量视频和扭曲噪声对的数据集,研究团队对视频扩散模型进行了微调。通过这种处理,推理阶段能够非常有效地控制视频中的运动。
噪声扭曲算法
为便于进行大规模噪声扭曲操作,研究团队设计了一种快速的噪声扭曲算法。
该算法逐帧处理噪声,仅需保存前一帧的噪声(尺寸为 H×W×C)及每个像素的光流密度值矩阵(尺寸为 H×W),该密度值表达特定区域噪声的压缩程度。
HIWYN 算法在运行时需要经历耗时的多边形光栅化以及每个像素的上采样操作。
新算法则直接根据光流追踪帧与帧之间的扩展和收缩情况,始终保持在像素级别的操作,这些操作轻松支持并行处理,极大提升了效率。
新算法同样能够保证噪声的高斯性,和 HIWYN 算法具有可比性。
下一帧噪声扭曲
噪声扭曲算法采用迭代方式计算某一帧噪声,仅依赖于前一帧的状态。
假定视频每帧的尺寸为 H×W,用
表征一个高为 H、宽为 W 的二维矩阵。
已知前一帧的噪声 q 和流密度
,以及正向流 f 和反向流 f′:
算法能够基于这些条件计算下一帧的噪声 q′和流密度
,其 q′(或 p′)与前一帧的 q(或 p)通过流在时间上建立连接。
算法同时综合了扩展与收缩两种动态机制。
在视频某区域被放大或物体靠近摄像机时,便会启动扩展机制。在这种情况下,当前帧的一个噪声像素会在下一帧中对应一个或多个噪声像素,形成扩展。
在收缩时,研究者借用拉格朗日流体动力学的概念,将噪声像素视为沿着前向光流 f 移动的粒子。
这些粒子在移动后,画面中可能留有空白区域。对在前向光流 f 没有覆盖到的区域,则利用反向光流 f' 将一个噪声像素拉回,与扩展过程中计算得到了噪声填补这些空白区域。
与此同时,为了长期保持噪声分布的准确性,研究团队依托密度值记录特定区域内噪声像素的聚集数量。
在收缩情况下,当这些噪声像素与邻近其他粒子混合时,密度较高的粒子会产生更大的权重。
为了同时有效处理扩展与收缩两种情况,研究者构建了一个二分图 G,图中的边表示噪声和密度如何从前一帧传递至下一帧。
在综合考虑图中各边的作用时,生成下一帧噪声 q' 时,依据光流密度对噪声进行缩放,以确保保持原始帧的分布特性。
通过同时计算扩展和收缩情况,避免互相干扰,以确保最终结果符合理想的高斯分布。
实验结果
为验证该方法的有效性,研究团队进行了大量实验及用户调研。结果显示,该方案在运动一致性和同情境渲染不同运动效果方面表现极为优异。
根据实验数据及用户反馈,本方案在像素质量、运动控制精准、与文本描述的一致性、视频的时间连贯性及用户的喜好程度等方面展现出显著的优势。
通过 Moran's I 指标评估空间相关性及K-S检验测试正态性。采用多种基准进行对比,包括固定独立采样噪声、插值技术和其他噪声扭曲算法。
观察结果表明,本文的方法在 Moran's I 指标和 K-S 检验中表现优越,显示出无空间自相关性且符合正态分布;相比之下,双线性、双三次和最近邻插值法未能保持高斯性,存在空间自相关性且偏离正态分布。
本文的方法在保持空间高斯性方面的成就显著,且在噪声生成效率和实际应用上具有强大的可行性。
实验结果表明,本文方法的效率极高,运行速度比并行的 InfRes快,速度提高了26倍,这得益于算法的线性时间复杂度。
该算法的效率比实时速度快了一个数量级,表明在视频扩散模型微调时动态应用噪声扭曲是可行的。
为检验噪声扭曲算法的有效性,将不同方法处理的噪声输入用于超分辨率和人像重光照的预训练图像扩散模型中,评估输出视频质量和时间一致性。
结果显示,本文算法在时间一致性方面优于基线方法,在处理前景、背景和边缘时表现出更高的稳定性。
在 DifFRelight 视频重光照任务中评估噪声扭曲方式。研究者在推理时从特定区域裁剪画面,并按照给定光照条件处理。本文方法在图像和时间指标上表现优于其他方法,能够有效改善图像扩散模型质量。
接下来,重心将放在视频扩散中的局部对象运动控制上。为评估模型的控制能力,和 SG-I2V、MotionClone 和 DragAnything 三种方法进行了对比。
现有方法在复杂局部运动处理时存在限制,SG-I2V 易误判导致视觉场景效果偏差,DragAnything 一致性欠佳且易失真,而 MotionClone 则难以捕获细微动态信息。
本文提出的模型在处理复杂运动时表现突出,能保持对象的一致性和三维真实性。广泛的研究和评估证实了本文的方法在运动一致性、视觉保真和总体真实感方面有显著优势。
此外,本文方法也支持运动迁移及相机运动控制。
在 DAVIS 数据集的对象运动传递测试中,运动保真度和视频质量优于其他方法,生成视频与真实视频的还原度较高。
在相机运动控制测试中,本文在 DL3DV 和 WonderJourney 数据集及深度扭曲实验中的表现亦然出色。
在视频首帧编辑能力的测评中,新增加的对象能够无缝融入并保留原始运动,显著优于其他基线方法。
本研究提出了一种新颖、实时速度更快的噪声扭曲算法,能自然地将运动控制融入视频扩散噪声采样过程中。
研究者应用这一噪声扭曲技术对视频数据进行预处理,随后展开视频扩散微调,进而提供了一种通用且易于用户的模式,适合于各类运动可控的视频生成情境。
参考资料:
https://x.com/EHuanglu/status/1882014762281865379
https://x.com/natanielruizg/status/1882121096859890140
https://eyeline-research.github.io/Go-with-the-Flow/
本文来源于微信公众号:新智元(ID:AI_era),原标题《一拖一拽,小猫活了!Netflix等新作爆火,噪声扭曲算法让运动控制更简单》
广告声明:文内包含的外部链接(包括不限于超链接、二维码、口令等),用于传递相关信息,仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。