阿里万相视频生成大模型宣布开源:8.2GB 显存就能跑,测试超越 Sora

xxn 阅读:15938 2025-02-26 00:03:00 评论:0

IT之家报道,阿里云最新宣布开源了其旗下视觉生成基座模型万相 2.1(Wan)

此次开源采用了最宽松的 Apache2.0 协议,涵盖了14B和1.3B两个参数规格的全部推理代码和权重。该模型支持文生视频和图生视频任务,全球开发者可以在 Github、HuggingFace 和魔搭社区下载体验。

据介绍,14B 万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面有着卓越表现。在评测集VBench中,万相 2.1取得了总分86.22%的成绩,超越了国内外模型如Sora、Luma和Pika,名列前茅。1.3B版本的测试结果不仅超越了更大尺寸的开源模型,甚至接近了部分闭源模型,而且能够在消费级显卡上运行,声称“仅需8.2GB显存即可生成480P视频”,非常适用于二次模型开发和学术研究。

万相视频模型架构图

在算法设计方面,万相基于主流DiT架构和线性噪声轨迹Flow Matching范式,研发了高效的因果3D VAE、可扩展的预训练策略等。举例来说,为了高效支持任意长度视频的编码和解码,万相利用3D VAE中的因果卷积模块实现了特征缓存机制,代替了对长视频端到端的编解码过程,实现了无限长1080P视频的高效编解码。此外,通过提前对空间降采样压缩,不仅未损失性能,还进一步减少了29%的推理时内存占用。

万相团队的实验结果显示,在运动质量、视觉质量、风格和多目标等14个主要维度和26个子维度测试中,万相表现业界领先,取得了5项第一

IT之家提供的开源地址:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容