阿里万相视频生成大模型宣布开源：8.2GB 显存就能跑，测试超越 Sora

xxn 阅读：15938 2025-02-26 00:03:00 评论：0

IT之家报道，阿里云最新宣布开源了其旗下视觉生成基座模型万相 2.1（Wan）。

此次开源采用了最宽松的 Apache2.0 协议，涵盖了14B和1.3B两个参数规格的全部推理代码和权重。该模型支持文生视频和图生视频任务，全球开发者可以在 Github、HuggingFace 和魔搭社区下载体验。

据介绍，14B 万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面有着卓越表现。在评测集VBench中，万相 2.1取得了总分86.22%的成绩，超越了国内外模型如Sora、Luma和Pika，名列前茅。1.3B版本的测试结果不仅超越了更大尺寸的开源模型，甚至接近了部分闭源模型，而且能够在消费级显卡上运行，声称“仅需8.2GB显存即可生成480P视频”，非常适用于二次模型开发和学术研究。

万相视频模型架构图

在算法设计方面，万相基于主流DiT架构和线性噪声轨迹Flow Matching范式，研发了高效的因果3D VAE、可扩展的预训练策略等。举例来说，为了高效支持任意长度视频的编码和解码，万相利用3D VAE中的因果卷积模块实现了特征缓存机制，代替了对长视频端到端的编解码过程，实现了无限长1080P视频的高效编解码。此外，通过提前对空间降采样压缩，不仅未损失性能，还进一步减少了29%的推理时内存占用。

万相团队的实验结果显示，在运动质量、视觉质量、风格和多目标等14个主要维度和26个子维度测试中，万相表现业界领先，取得了5项第一。

IT之家提供的开源地址：

Github：https://github.com/Wan-Video
HuggingFace：https://huggingface.co/Wan-AI
魔搭社区：https://modelscope.cn/organization/Wan-AI

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。