无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-Omni,支持图像、音频、文本理解

xxn 阅读:14462 2024-12-16 14:01:21 评论:0

IT之家今日报道,无问芯穹宣布开源其端侧解决方案中的全模态理解小模型 Megrez-3B-Omni 及其纯语言模型版本 Megrez-3B-Instruct。

官方指出,Megrez-3B-Omni 是专为端设备设计的全模态理解模型,能够处理图片、音频和文本三种模态数据:

  • 图像理解方面,Megrez-3B-Omni 是目前多个主流测试集中精度最高的图像理解模型之一,如 OpenCompass、MME、MMMU 和 OCRBench。

  • 文本理解方面,Megrez-3B-Omni 在 C-EVAL、MMLU / MMLU Pro 和 AlignBench 等多个权威测试集上取得了端设备模型最优精度。

  • 语音理解方面,Megrez-3B-Omni 支持中英文语音输入,能够处理复杂的多轮对话场景,并支持对输入图片或文字进行语音提问,从而实现不同模态之间的无缝切换。

官方声称,与上一代及其他端侧大语言模型相比,单模态版本的 Megrez-3B-Instruct 在推理速度上取得了显著提升,推理速度最大可超前同等精度模型 300%。

IT之家提供以下相关链接:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容