讯飞星火多模态交互大模型上线,数字人、语音、视觉支持一键调用
IT之家 11 月 14 日消息,“讯飞开放平台”公众号今天傍晚宣布,讯飞星火多模态交互大模型正式上线,其实现从语音交互拓展到音视频流实时多模交互,新增“多模态、超拟人和个性化”能力,实现语音、视觉、数字人交互三合一,支持一键调用。
根据官方介绍,讯飞星火多模态交互大模型首次引入超拟人数字人技术,数字人躯干和四肢动作能够准确匹配语音内容,快速生成表情和动作,使 AI“活灵活现”。通过统一文本、语音和表情,能够实现跨模态的语义一致性,从而使大模型情感表达真实连贯。
该大模型支持超拟人极速交互,采用单一神经网络直接实现语音到语音的端到端建模,响应更快速、流畅,可敏锐感知情绪变化,也可根据指令自由调整声音的速度、音量和语气。
此模型还支持多模态视觉交互,能够“聆听世界”“认知各种事物”,更全面感知具体背景场景、物体状况等信息,对任务的理解更加精准,并通过语音、手势、行为、情绪等综合因素做出适当回应。
据IT之家先前报道,用户可与数字人进行语音、视频通话,数字人可实现与用户的自然语音对话,人物表情等也能够匹配说话的语句。星火超拟人数字人还支持多模态交互,让数字人能够分辨摄像头中的元素,如孙悟空和奥特曼并立、面霜品牌和功效、花卉种类等。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。