字节跳动展示 OmniHuman 多模态框架:图片 + 音频 = 逼真动画,半身全身均可生成

xxn 阅读:24089 2025-02-06 16:01:22 评论:0

IT之家 2 月 6 日报道,字节跳动的研究团队最近推出了一款AI模型,能够根据一张图片和一段音频生成半身和全身视频。

与某些仅能制作面部或上半身动画的深度伪造技术不同,OmniHuman-1可以生成高度真实的全身动画,同时能够精确同步手势与面部表情、语音或音乐

字节跳动在其 OmniHuman-lab 项目页面上展示了多段测试视频,内容包括AI生成的TED演讲以及一段关于阿尔伯特·爱因斯坦的发言。

在周一公布的一篇研究论文中,字节跳动强调,OmniHuman-1模型支持多种体型和画面比例,从而使生成的视频效果显得更加自然。

根据IT之家获取的信息,字节跳动透露,OmniHuman-1模型是基于近19000小时的人类运动数据进行训练的,能够在内存允许的情况下生成任意长度的视频,并适应不同类型的输入信号。

研究人员进一步指出,OmniHuman-1在真实性和准确性方面明显超越其他同类动画工具。目前,这款工具尚未提供下载或其他相关服务。

广告声明:文中提及的外部链接(包括但不限于超链接、二维码、口令等形式)旨在传递更多信息,以节省选择时间,仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容