Meta 新视频生成框架 VideoJAM 拿捏倒立杂技,双人舞也能完美同步

xxn 阅读:30530 2025-02-10 14:04:00 评论:0

为了解决视频生成过程中的运动一致性问题,Meta GenAI团队推出了一个创新框架 VideoJAM

VideoJAM建立在主流的DiT路径之上,但与Sora等纯DiT模型相比,它的动态表现更为卓越:

即使是变化剧烈且复杂的舞蹈动作,也能呈现出高度真实的效果,并且两位舞者能够完美同步:

就像进行倒立这样复杂的动作,VideoJAM同样能够轻松胜任:

而且,它可以无缝地集成到各种规模的DiT模型中,无需额外数据或缩放即可提升运动表现。

许多网友评论称,初看之下,这些效果与真实相比毫无差异,或许在今年年底时,我们也难以区分了。

运动表现超越Sora和Gen3

在运动场景的生成上,VideoJAM不仅能够提供更逼真的视觉效果,还能更好地遵循物理规律。

例如,在熄灭蜡烛时,火焰的摇曳和渐渐熄灭的过程,以及随之而来的白烟效果,均展现得淋漓尽致:

在书法中,毛笔的运动得到了细致的表现,并且笔迹与纸面上的字迹保持了同步(虽然具体写的内容无法辨识):

例如,当用手捏史莱姆时,形状的变化及内部流体效果也呈现得相当生动,甚至在手松开后也能体现出粘连的特性:

甚至能够真实地再现抛球的杂技表演,其中球体的抛物线轨迹表现得尤为出色:

同时,研究者们对文本、外观、运动一致性及视频质量等指标进行了评估,分别在4B和30B的DiT模型上运用了VideoJAM,并与市场主流视频生成模型进行了对比。

结果显示,在4B和30B规模下,相较于原始的DiT模型,运动质量分别从78.3和88.1提升至93.7和92.4,提升比例分别为19.67%和4.88%。

并且,在部署VideoJAM之后,其运动质量超越了Gen3和Sora等其他比较模型。

那么,VideoJAM究竟怎么做到的呢?

引入运动信息进行训练

在训练和推理的阶段,VideoJAM为经典的DiT架构做出了适当的扩展。

具体来说,在训练阶段,VideoJAM采用了联合外观-运动表示(Joint Appearance-Motion Representation)。

通过引入额外的运动预测任务,让模型在生成视频的同时掌握相应的运动预测。

为了实现这种联合表示,VideoJAM对现有的视频生成模型进行了两项关键改进,添加了输入和输出两个线性投影层。

  • 输入投影层将外观特征(视频帧的表示)和运动特征结合后,映射到模型的隐藏空间,形成一个兼具静态外观信息和动态运动信息的联合潜在表示。

  • 输出投影层则从这个联合潜在表示中分别解码出视频的外观预测与运动预测,其中外观预测用于生成最终的视频帧,而运动预测则用于评估模型对时间一致性的理解。

在整个过程中,运动使用光流(Optical Flow)作为表示方式,这是一种描述视频帧间像素移动的形式。

处理时,VideoJAM将光流转化为RGB格式,像素运动方向通过色调映射,强度通过亮度或透明度呈现,这样模型就可以像处理一般视频那样进行操作。

这种处理方式不需要额外训练复杂的运动编码器,并且兼容性强,容易融入现有的视频生成模型中。

在推理阶段,VideoJAM引入了一种内部引导机制(Inner-Guidance Mechanism),以进一步增强生成视频的运动一致性。

该机制不依赖外部条件,而是通过模型自身在每个生成步骤预测的运动信息来动态调整生成过程,从而实时捕捉视频内容的动态变化。

与其他扩散模型类似,生成视频的初始输入是随机噪声,模型先对噪声进行处理,生成初步的视频帧以及相应的运动预测。

在生成过程中,模型将当前帧的运动预测作为指导信号,以调节下一个时间步的生成方向。

在这种反馈机制下,模型持续地审视自己生成的动作是否连贯,并在发现不一致时自动进行修正。

具体而言,生成过程可分为两个阶段,内部引导机制主要应用于首个阶段:

  • 初步阶段:在生成的初期阶段(约前50%的步骤),重点关注大范围的运动连贯性,如整体方向和节奏。

  • 细化阶段:在生成的后期阶段,转向优化细节,如肢体动作的微调和物体交互的物理合理性。

消融实验表明,光流表示和内部引导机制正是VideoJAM实现高运动一致性的关键技术。

相关论文:

https://arxiv.org/abs/2502.02492

项目官方网站:

https://hila-chefer.github.io/videojam-paper.github.io/

本文来源于微信公众号:量子位(ID:QbitAI),作者:克雷西,原标题《Meta 推出新视频生成框架,完美呈现倒立杂技与双人舞的高同步率!运动一致性提升近20%,可轻松集成DiT模型》

广告说明:文中包含的外部链接(如超链接、二维码、口令等)供传达额外信息之用,以便读者快速获取相关信息,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容