字节跳动展示 OmniHuman 多模态框架：图片 + 音频 = 逼真动画，半身全身均可生成

xxn 阅读：24089 2025-02-06 16:01:22 评论：0

IT之家 2 月 6 日报道，字节跳动的研究团队最近推出了一款AI模型，能够根据一张图片和一段音频生成半身和全身视频。

与某些仅能制作面部或上半身动画的深度伪造技术不同，OmniHuman-1可以生成高度真实的全身动画，同时能够精确同步手势与面部表情、语音或音乐。

字节跳动在其 OmniHuman-lab 项目页面上展示了多段测试视频，内容包括AI生成的TED演讲以及一段关于阿尔伯特·爱因斯坦的发言。

在周一公布的一篇研究论文中，字节跳动强调，OmniHuman-1模型支持多种体型和画面比例，从而使生成的视频效果显得更加自然。

根据IT之家获取的信息，字节跳动透露，OmniHuman-1模型是基于近19000小时的人类运动数据进行训练的，能够在内存允许的情况下生成任意长度的视频，并适应不同类型的输入信号。

研究人员进一步指出，OmniHuman-1在真实性和准确性方面明显超越其他同类动画工具。目前，这款工具尚未提供下载或其他相关服务。

广告声明：文中提及的外部链接（包括但不限于超链接、二维码、口令等形式）旨在传递更多信息，以节省选择时间，仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。