百川智能上线开源全模态模型 Omni-1.5，号称多项能力超越 GPT-4o mini

xxn 阅读：96629 2025-01-26 16:01:12 评论：0

IT之家 1 月 26 日报道称，百川智能正式发布了Baichuan-Omni-1.5版本，该版本为开源全模态模型。除了支持文本、图像、音频和视频的全模态理解外，Baichuan-Omni-1.5还具备了文本和音频的双模态生成能力。

官方表示，在视觉、语音以及多模态流式处理等方面，Baichuan-Omni-1.5表现优于GPT-4o mini；在多模态医疗应用领域，其具备更为突出的领先优势。

Baichuan-Omni-1.5不仅能够在输入和输出端实现多种交互操作，还具备强大的多模态推理能力和跨模态迁移能力。

在音频技术领域，Baichuan-Omni-1.5采用了端到端解决方案，支持多语言对话、端到端音频合成，同时可以实现自动语音识别、文本转语音等功能，同时支持音视频实时交互。

据介绍，在视频理解能力方面，Baichuan-Omni-1.5通过对编码器、训练数据和训练方法等多个关键环节进行深入优化，整体性能大幅超越GPT-4o-mini。

模型结构方面，Baichuan-Omni-1.5的模型输入部分支持各种模态通过相应的Encoder / Tokenizer输入到大型语言模型中。

而在模型输出部分，Baichuan-Omni-1.5采用了文本-音频交错输出的设计，通过Text Tokenizer和Audio Decoder同时生成文本和音频。

百川智能建立了一个包含3.4亿条高质量图片 / 视频-文本数据和近100万小时音频数据的庞大数据库，并在SFT阶段使用了1700万条全模态数据。

IT之家提供的开源地址如下：

GitHub：

模型权重：

技术报告：

https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdf

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。