百川智能上线开源全模态模型 Omni-1.5,号称多项能力超越 GPT-4o mini

xxn 阅读:96629 2025-01-26 16:01:12 评论:0

IT之家 1 月 26 日报道称,百川智能正式发布了Baichuan-Omni-1.5版本,该版本为开源全模态模型。除了支持文本、图像、音频和视频的全模态理解外,Baichuan-Omni-1.5还具备了文本和音频的双模态生成能力。

官方表示,在视觉、语音以及多模态流式处理等方面,Baichuan-Omni-1.5表现优于GPT-4o mini;在多模态医疗应用领域,其具备更为突出的领先优势。

Baichuan-Omni-1.5不仅能够在输入和输出端实现多种交互操作,还具备强大的多模态推理能力和跨模态迁移能力。

在音频技术领域,Baichuan-Omni-1.5采用了端到端解决方案,支持多语言对话、端到端音频合成,同时可以实现自动语音识别、文本转语音等功能,同时支持音视频实时交互。

据介绍,在视频理解能力方面,Baichuan-Omni-1.5通过对编码器、训练数据和训练方法等多个关键环节进行深入优化,整体性能大幅超越GPT-4o-mini。

模型结构方面,Baichuan-Omni-1.5的模型输入部分支持各种模态通过相应的Encoder / Tokenizer输入到大型语言模型中。

而在模型输出部分,Baichuan-Omni-1.5采用了文本-音频交错输出的设计,通过Text Tokenizer和Audio Decoder同时生成文本和音频。

百川智能建立了一个包含3.4亿条高质量图片 / 视频-文本数据和近100万小时音频数据的庞大数据库,并在SFT阶段使用了1700万条全模态数据。

IT之家提供的开源地址如下:

GitHub:

  • https://github.com/baichuan-inc/Baichuan-Omni-1.5

模型权重:

  • Baichuan-Omni-1.5:

  • https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5

  • https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5

  • Baichuan-Omni-1.5-Base:

  • https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5-Base

  • https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5-Base

技术报告:

  • https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdf

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容