腾讯混元发布并开源图生视频模型:可生成 5 秒短视频,还能自动配上背景音效

xxn 阅读:20186 2025-03-06 18:02:15 评论:0
感谢IT之家用户 华南吴彦祖 的线索提供!

IT之家 3 月 6 日更新,IT之家从腾讯混元公众号获取的信息显示,腾讯混元正式推出图生视频模型,并将其开放源代码,同时推出了口型对齐与动作驱动等新功能,并能生成背景音效及支持 2K 高清视频输出。

利用图生视频功能,用户仅需上传一张照片,并简要描述希望如何运动、镜头调整等,混元就能根据需求让照片“活起来”,生成 5 秒的短视频,同时自动添加背景音乐。此外,上传人物照片并输入期望的“口型”文本或音频,照片中的人物便可“发声”或“演唱”;借助“动作驱动”功能,可以轻松生成相似风格的舞蹈视频。

目前,用户可以通过混元 AI 视频官网(https://video.hunyuan.tencent.com/)进行体验,企业和开发者可申请腾讯云的 API 接口进行使用。

此次推出的图生视频模型,是混元文生视频模型开源进程中的一步,模型参数总量达到 130 亿,该模型支持多种角色与场景类型,包括写实视频、动漫角色以及 CGI 角色的生成。

开源内容中包含模型权重、推理代码以及 LoRA 训练代码,支持开发者基于混元模型训练专属的 LoRA 或其他衍生模型。目前,该模型在 GitHub、HuggingFace 等主要开发者社区中均可下载安装体验。

根据混元开源技术报告,混元视频生成模型展现出卓越的扩展性,图生视频与文生视频在相同数据集内进行预训练。同时,在确保超写实画质和流畅动作表现的基础上,让模型具备捕捉丰富视觉及语义信息的能力,通过图像、文本、音频和姿态等多样输入,实现对生成视频的多维度控制

截至目前,混元开源系列模型已全面覆盖文本、图像、视频及 3D 生成等多个领域,在 GitHub 上获得超过 2.3 万开发者的关注和 star。

附:混元图生视频开源位置 

GitHub:https://github.com/Tencent/HunyuanVideo-I2V

Huggingface:https://huggingface.co/tencent/HunyuanVideo-I2V

广告声明:文中所含的外部链接(包括但不限于超链接、二维码、口令等形式)用于传递更多信息,帮助用户节省信息筛选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容