讯飞星火多模态交互大模型上线，数字人、语音、视觉支持一键调用

xxn 阅读：58256 2024-11-14 20:03:10 评论：0

IT之家 11 月 14 日消息，“讯飞开放平台”公众号今天傍晚宣布，讯飞星火多模态交互大模型正式上线，其实现从语音交互拓展到音视频流实时多模交互，新增“多模态、超拟人和个性化”能力，实现语音、视觉、数字人交互三合一，支持一键调用。

根据官方介绍，讯飞星火多模态交互大模型首次引入超拟人数字人技术，数字人躯干和四肢动作能够准确匹配语音内容，快速生成表情和动作，使 AI“活灵活现”。通过统一文本、语音和表情，能够实现跨模态的语义一致性，从而使大模型情感表达真实连贯。

该大模型支持超拟人极速交互，采用单一神经网络直接实现语音到语音的端到端建模，响应更快速、流畅，可敏锐感知情绪变化，也可根据指令自由调整声音的速度、音量和语气。

此模型还支持多模态视觉交互，能够“聆听世界”“认知各种事物”，更全面感知具体背景场景、物体状况等信息，对任务的理解更加精准，并通过语音、手势、行为、情绪等综合因素做出适当回应。

据IT之家先前报道，用户可与数字人进行语音、视频通话，数字人可实现与用户的自然语音对话，人物表情等也能够匹配说话的语句。星火超拟人数字人还支持多模态交互，让数字人能够分辨摄像头中的元素，如孙悟空和奥特曼并立、面霜品牌和功效、花卉种类等。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。