首个 VR 端 3D 角色扮演 AI 发布：端到端 VLA 模型驱动，唱跳都能陪你玩

xxn 阅读：29398 2024-12-09 14:00:54 评论：0

世界范围内首个虚拟现实端 3D 角色扮演 AI 已经诞生！

AI 角色扮演游戏（如 C.AI、Talkie）自推出以来备受瞩目，一直是人们钟爱的 AI 产品之一。尽管深受欢迎，许多用户希望在虚拟现实中与这些角色有更进一步的互动。

最近，来自南洋理工大学的研究小组成功在虚拟现实环境中打造出第一个 3D 版 AI 角色扮演系统 SOLAMI，并公开了其详细技术报告。没错，这意味着可以在虚拟现实中与各种角色进行沉浸式交流了！

项目官网：https://solami-ai.github.io/
技术报告：https://arxiv.org/abs/2412.00174
完整视频介绍：

从技术报告中我们了解到，SOLAMI 支持多种角色，包括超级英雄蝙蝠侠、迷人的机器人、二次元萌妹、香蕉猫等等...

SOLAMI 搭载的 AI 角色可以识别用户的肢体语言，进而关心和理解用户：

想让角色跳舞？只需说一句话，角色立马能理解并跟上：

用户还能与角色共同玩游戏，比如随着用户的节奏一起舞动，或者玩剪刀石头布：

那么 SOLAMI 推出的初衷是什么？模型的运作原理是怎样的？使用了什么数据进行训练？

研究背景

你有没有设想过能够与虚拟角色进行面对面深入交流？不只是简单的语言交流，而是能像真实社交那样，观察对方的面部表情、自然的身体语言，甚至细微情感变化。

心理学研究表明，在社交互动中，沉浸程度越高，用户体验越佳。然而，当前的 AI 角色（如 Character.ai 等）仍受限于文本或语音互动。这促使我们思考：如何构建具有更丰富模式的3D自主角色呢？

要实现这一目标，面临两大挑战：

3D 角色需准确观察和理解用户行为信息，并基于上下文和角色设定，通过语音、肢体动作和表情做出适当回应。这已超越了以往简单任务（动作理解、动作生成、语音驱动肢体等）的范围。
稀缺数据问题。人类与3D角色进行多模式互动数据非常稀缺，收集这类数据需复杂设备和高昂成本。

传统的LLM-Agent框架在高级任务（如规划和记忆）方面表现出色，但在理解用户行为和提供及时肢体语言反馈方面存在限制。这是因为使用文本作为子模块连接媒介会丢失许多微妙信息。

机器人领域研究给了我们启示：对于底层操作任务，基于LLM建立的端到端视觉-语言-行为（Vision-Language-Action，VLA）模型表现更佳。虚拟角色本质上就是虚拟人类机器人形态，因此构建更注重社交互动的VLA模型是否是一个潜在的方向？

社交VLA模型

SOLAMI 推理图

如图片所示，SOLAMI所有角色的驱动都基于一个统一的端到端VLA多模态模型。在给定角色设定的情况下，模型以用户的语音和动作为输入，使用Motion Tokenizer和Speech Tokenizer将这两种模态分别编码为LLM新词表中的token，LLM基座会输出角色的语音和动作token，再通过解码器分别解码为角色的3D动作和语音，从而激发角色做出反应。

与GPT-4o相比，该模型多了用户动作模态，用于理解用户的肢体语言，生成角色的动作。

在此，用户的动作以SMPL-X的3D旋转表示，动作被划分为相对于3D角色的位置、肢体动作和手部动作三个部分，并经过三个VQVAE进行编码。用户的语音通过RVQ-VAE结构进行编码，使用SoundStorm进行解码，而解码过程中只需输入少量角色语音以作提示，就能实现声音克隆。

SOLAMI训练过程

模型训练分为两个主要阶段：多任务预训练和指令微调训练。

多任务预训练阶段主要利用动作-文本、语音-文本相关数据集进行训练，包括语音转文字、自动语音识别、语音转语音、动作理解、动作生成、互动动作生成等六个任务。其目的在于让SOLAMI学习动作、语音及文本之间的关联。

指令微调阶段侧重训练模型进行多回合多模式对话能力。使用合成数据集，模型被要求掌握基于角色设定与用户输入如何作出语音和动作反馈。

数据搜集

用于模型训练的数据非常稀缺。毕竟，很少有人与蝙蝠侠面对面交谈。因此，研究人员考虑利用现有不同模态数据进行合成。

研究人员首先基于公开的动作-文本数据集构建了一个大规模带有语义标注的动作库，其中含有4万多个人体动作，随后使用GPT-4o生成角色与用户对话的纯文本台词剧本。

根据生成的剧本动作，从动作库中检索最适合的现有动作，并修订对应口白。生成的文本剧本可与合成数据中的动作更好契合。最后，通过声音克隆合成角色独特声音。这样，一个低成本合成数据集就得以实现。

SOLAMI合成数据管线

虚拟现实工程实现

SOLAMI虚拟现实工程框架

研究人员基于Oculus Quest 3开发了一套完整的虚拟现实互动系统。

前端支持用户与3D虚拟角色进行沉浸式互动，后端由2块H800 GPU提供计算支持，可支持多种模型和方法。

在互动过程中，虚拟现实头显会实时捕捉用户语音和全身动作，并传输至后端。后端运行SOLAMI模型，生成角色的语音、肢体动作和面部表情反馞，并传送至前端驱动角色。

实验结果

在这项工作中，研究人员探讨了两个问题：与纯语音相比，3D角色及动作是否提升了AI角色扮演体验？与LLM-Agent结构相比，端到端VLA结构在互动质量和延迟上是否提升了体验？

为此，研究人员选择了两种对照方法：LLM+Speech，DLP（MotionGPT）。前者是纯语音互动，后者是LLM-Agent结构驱动的数字角色。为了确保公平性，这些方法的基座模型均为llama2-7B，并使用vLLM部署进行加速。

定量实验结果

定量实验结果表明，SOLAMI在动作及语音质量上均超过对照方法，并具有较低的事件延迟。消融实验也显示，多任务预训练对模型效果有显著提升。

实验定性分析及虚拟现实使用流程

除定量试验外，研究人员还进行了用户实验，让用户在虚拟现实头显中与各种角色互动，并根据体验评分。结果显示SOLAMI体验明显优于纯语音及LLM-Agent结构方法。有趣的是，尽管纯语音方法在对话内容方面优于LLM-Agent结构方法，但整体体验仍不及后者，这印证了在AI角色扮演中，角色及肢体语言对体验的重要性。

消融实验结果

总结

研究人员在这项工作中提出了一个社交VLA的端到端建模3D数字角色技术框架，一种利用现有不完善模态数据生成多模式社交数据的流程，以及一个支持用户与角色沉浸式互动的虚拟现实互动系统。

当然，作为新方向，研究者也指出了一些值得进一步探索的方向，如设定输入输出模态、数据收集方式、跨身体问题、长短时记忆问题、技能学习方法等。对这一课题感兴趣的朋友可以参考技术报告。

参考资料：

https://solami-ai.github.io/

本文来自微信公众号：新智元（ID：AI_era），原标题《首个 VR 端 3D 角色扮演 AI 发布！南洋理工公开 SOLAMI 技术报告，端到端 VLA 模型驱动，唱跳都能陪你玩》

广告声明：文中包含的外部链接（如超链接、二维码、口令等）仅用于传递信息，节省您搜索时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。