首个 VR 端 3D 角色扮演 AI 发布:端到端 VLA 模型驱动,唱跳都能陪你玩
世界范围内首个虚拟现实端 3D 角色扮演 AI 已经诞生!
AI 角色扮演游戏(如 C.AI、Talkie)自推出以来备受瞩目,一直是人们钟爱的 AI 产品之一。尽管深受欢迎,许多用户希望在虚拟现实中与这些角色有更进一步的互动。
最近,来自南洋理工大学的研究小组成功在虚拟现实环境中打造出第一个 3D 版 AI 角色扮演系统 SOLAMI,并公开了其详细技术报告。没错,这意味着可以在虚拟现实中与各种角色进行沉浸式交流了!
完整视频介绍:
从技术报告中我们了解到,SOLAMI 支持多种角色,包括超级英雄蝙蝠侠、迷人的机器人、二次元萌妹、香蕉猫等等...
SOLAMI 搭载的 AI 角色可以识别用户的肢体语言,进而关心和理解用户:
想让角色跳舞?只需说一句话,角色立马能理解并跟上:
用户还能与角色共同玩游戏,比如随着用户的节奏一起舞动,或者玩剪刀石头布:
那么 SOLAMI 推出的初衷是什么?模型的运作原理是怎样的?使用了什么数据进行训练?
研究背景
你有没有设想过能够与虚拟角色进行面对面深入交流?不只是简单的语言交流,而是能像真实社交那样,观察对方的面部表情、自然的身体语言,甚至细微情感变化。
心理学研究表明,在社交互动中,沉浸程度越高,用户体验越佳。然而,当前的 AI 角色(如 Character.ai 等)仍受限于文本或语音互动。这促使我们思考:如何构建具有更丰富模式的3D自主角色呢?
要实现这一目标,面临两大挑战:
3D 角色需准确观察和理解用户行为信息,并基于上下文和角色设定,通过语音、肢体动作和表情做出适当回应。这已超越了以往简单任务(动作理解、动作生成、语音驱动肢体等)的范围。
稀缺数据问题。人类与3D角色进行多模式互动数据非常稀缺,收集这类数据需复杂设备和高昂成本。
传统的LLM-Agent框架在高级任务(如规划和记忆)方面表现出色,但在理解用户行为和提供及时肢体语言反馈方面存在限制。这是因为使用文本作为子模块连接媒介会丢失许多微妙信息。
机器人领域研究给了我们启示:对于底层操作任务,基于LLM建立的端到端视觉-语言-行为(Vision-Language-Action,VLA)模型表现更佳。虚拟角色本质上就是虚拟人类机器人形态,因此构建更注重社交互动的VLA模型是否是一个潜在的方向?
社交VLA模型
如图片所示,SOLAMI所有角色的驱动都基于一个统一的端到端VLA多模态模型。在给定角色设定的情况下,模型以用户的语音和动作为输入,使用Motion Tokenizer和Speech Tokenizer将这两种模态分别编码为LLM新词表中的token,LLM基座会输出角色的语音和动作token,再通过解码器分别解码为角色的3D动作和语音,从而激发角色做出反应。
与GPT-4o相比,该模型多了用户动作模态,用于理解用户的肢体语言,生成角色的动作。
在此,用户的动作以SMPL-X的3D旋转表示,动作被划分为相对于3D角色的位置、肢体动作和手部动作三个部分,并经过三个VQVAE进行编码。用户的语音通过RVQ-VAE结构进行编码,使用SoundStorm进行解码,而解码过程中只需输入少量角色语音以作提示,就能实现声音克隆。
模型训练分为两个主要阶段:多任务预训练和指令微调训练。
多任务预训练阶段主要利用动作-文本、语音-文本相关数据集进行训练,包括语音转文字、自动语音识别、语音转语音、动作理解、动作生成、互动动作生成等六个任务。其目的在于让SOLAMI学习动作、语音及文本之间的关联。
指令微调阶段侧重训练模型进行多回合多模式对话能力。使用合成数据集,模型被要求掌握基于角色设定与用户输入如何作出语音和动作反馈。
数据搜集
用于模型训练的数据非常稀缺。毕竟,很少有人与蝙蝠侠面对面交谈。因此,研究人员考虑利用现有不同模态数据进行合成。
研究人员首先基于公开的动作-文本数据集构建了一个大规模带有语义标注的动作库,其中含有4万多个人体动作,随后使用GPT-4o生成角色与用户对话的纯文本台词剧本。
根据生成的剧本动作,从动作库中检索最适合的现有动作,并修订对应口白。生成的文本剧本可与合成数据中的动作更好契合。最后,通过声音克隆合成角色独特声音。这样,一个低成本合成数据集就得以实现。
虚拟现实工程实现
研究人员基于Oculus Quest 3开发了一套完整的虚拟现实互动系统。
前端支持用户与3D虚拟角色进行沉浸式互动,后端由2块H800 GPU提供计算支持,可支持多种模型和方法。
在互动过程中,虚拟现实头显会实时捕捉用户语音和全身动作,并传输至后端。后端运行SOLAMI模型,生成角色的语音、肢体动作和面部表情反馞,并传送至前端驱动角色。
实验结果
在这项工作中,研究人员探讨了两个问题:与纯语音相比,3D角色及动作是否提升了AI角色扮演体验?与LLM-Agent结构相比,端到端VLA结构在互动质量和延迟上是否提升了体验?
为此,研究人员选择了两种对照方法:LLM+Speech,DLP(MotionGPT)。前者是纯语音互动,后者是LLM-Agent结构驱动的数字角色。为了确保公平性,这些方法的基座模型均为llama2-7B,并使用vLLM部署进行加速。
定量实验结果表明,SOLAMI在动作及语音质量上均超过对照方法,并具有较低的事件延迟。消融实验也显示,多任务预训练对模型效果有显著提升。
除定量试验外,研究人员还进行了用户实验,让用户在虚拟现实头显中与各种角色互动,并根据体验评分。结果显示SOLAMI体验明显优于纯语音及LLM-Agent结构方法。有趣的是,尽管纯语音方法在对话内容方面优于LLM-Agent结构方法,但整体体验仍不及后者,这印证了在AI角色扮演中,角色及肢体语言对体验的重要性。
总结
研究人员在这项工作中提出了一个社交VLA的端到端建模3D数字角色技术框架,一种利用现有不完善模态数据生成多模式社交数据的流程,以及一个支持用户与角色沉浸式互动的虚拟现实互动系统。
当然,作为新方向,研究者也指出了一些值得进一步探索的方向,如设定输入输出模态、数据收集方式、跨身体问题、长短时记忆问题、技能学习方法等。对这一课题感兴趣的朋友可以参考技术报告。
参考资料:
本文来自微信公众号:新智元(ID:AI_era),原标题《首个 VR 端 3D 角色扮演 AI 发布!南洋理工公开 SOLAMI 技术报告,端到端 VLA 模型驱动,唱跳都能陪你玩》
广告声明:文中包含的外部链接(如超链接、二维码、口令等)仅用于传递信息,节省您搜索时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。