腾讯混元发布并开源图生视频模型：可生成 5 秒短视频，还能自动配上背景音效

xxn 阅读：20186 2025-03-06 18:02:15 评论：0

感谢IT之家用户华南吴彦祖的线索提供！

IT之家 3 月 6 日更新，IT之家从腾讯混元公众号获取的信息显示，腾讯混元正式推出图生视频模型，并将其开放源代码，同时推出了口型对齐与动作驱动等新功能，并能生成背景音效及支持 2K 高清视频输出。

利用图生视频功能，用户仅需上传一张照片，并简要描述希望如何运动、镜头调整等，混元就能根据需求让照片“活起来”，生成 5 秒的短视频，同时自动添加背景音乐。此外，上传人物照片并输入期望的“口型”文本或音频，照片中的人物便可“发声”或“演唱”；借助“动作驱动”功能，可以轻松生成相似风格的舞蹈视频。

目前，用户可以通过混元 AI 视频官网（https://video.hunyuan.tencent.com/）进行体验，企业和开发者可申请腾讯云的 API 接口进行使用。

此次推出的图生视频模型，是混元文生视频模型开源进程中的一步，模型参数总量达到 130 亿，该模型支持多种角色与场景类型，包括写实视频、动漫角色以及 CGI 角色的生成。

开源内容中包含模型权重、推理代码以及 LoRA 训练代码，支持开发者基于混元模型训练专属的 LoRA 或其他衍生模型。目前，该模型在 GitHub、HuggingFace 等主要开发者社区中均可下载安装体验。

根据混元开源技术报告，混元视频生成模型展现出卓越的扩展性，图生视频与文生视频在相同数据集内进行预训练。同时，在确保超写实画质和流畅动作表现的基础上，让模型具备捕捉丰富视觉及语义信息的能力，通过图像、文本、音频和姿态等多样输入，实现对生成视频的多维度控制。

截至目前，混元开源系列模型已全面覆盖文本、图像、视频及 3D 生成等多个领域，在 GitHub 上获得超过 2.3 万开发者的关注和 star。

附：混元图生视频开源位置

GitHub：https://github.com/Tencent/HunyuanVideo-I2V

Huggingface：https://huggingface.co/tencent/HunyuanVideo-I2V

广告声明：文中所含的外部链接（包括但不限于超链接、二维码、口令等形式）用于传递更多信息，帮助用户节省信息筛选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。