中国移动联合研发 2D 数字人说话驱动系统：可生成 7 种情绪，用于 5G 新通话、AI 客服等

xxn 阅读：64883 2024-12-09 14:02:27 评论：0

近日，中国移动联合南京大学团队发布了一则关于高保真 2D 数字人说话驱动系统的消息。

作为全球用户规模最大的通信运营商之一，中国移动每年的客户服务运营成本庞大。尽管智能语音客服已经得到广泛运用，能够完成一定的自动应答任务，但仍无法与人工客服提供的面对面、一对一的卓越服务体验相提并论。

为解决现有业务中存在的问题，中国移动九天视觉团队与南京大学邰颖团队联手研发出了高保真 2D 数字人说话驱动系统，旨在为用户提供表情自然、唇音同步以及头部姿态和谐的数字人播报对话服务，可广泛应用于智能客服、教育培训、广告营销等多个领域。

▲ 情感控制的高保真 2D 数字人说话驱动方法

根据中国移动官方介绍，2D 数字人说话驱动系统能够根据提供的目标人物照片或视频以及任何音频内容，生成出与音频同步的视频。该系统要求生成的人物视频逼真度高，表情和姿态自然，同时需要具备较高的实时性，能够与语言大模型和音频合成能力有机整合，打造出数字化的替身。

中国移动九天视觉团队与南京大学联合研发的高保真 2D 数字人说话驱动系统，在以下三个方面进行了技术攻关和创新：

首先，在性能实时方面：相较于以往的数字人技术，实时口型生成技术达到了学术界领先水平，支持中英文数字人口型驱动，在保持效果的情况下实现了30毫秒/帧的实时性能。
其次，在效果表现方面：研发了二阶段学习框架，将数字人说话驱动过程拆分为：从音频到口型系数和从口型系数到生成人像，降低了学习难度，实现了更好的生成效果。
第三，在情绪控制方面：引入情绪引导学习模块，支持正常、微笑、惊讶、愤怒、恐惧、悲伤等7种主流情绪控制生成，使生成的人物能够表达丰富的人文情感。

▲ 高兴、悲伤情绪下的数字人说话生成效果

根据IT之家从中国移动官方获得的信息，数字人生成技术已实现了端到端的二阶段30帧/秒的实时生成性能，并支持512*512人脸区域的生成，同时具备高兴、悲伤等7种主流情绪控制生成能力。

在VoxCeleb数据集的测试中，该技术的口型准确性LMD（LandMark Distance）达到4.3，生成自然度FID达到11.1。

中国移动官方表示，这一研发成果具有广阔的应用前景，有效降低了创作门槛，提升了生成人物的视觉品质，已经为5G通话和留言小秘书等品牌业务的拓展提供了升级支持。

广告声明：本文包含的外部链接旨在传递更多信息，节省您的时间，仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。