通义千问 Qwen 2.5-Max 超大规模 MoE 模型发布:号称优于 Deepseek V3 等竞品,暂未开源

xxn 阅读:81304 2025-01-29 04:01:00 评论:0
感谢IT之家网友 混沌窥源光影幻软媒用户1392612 的线索提供!

IT之家 1 月 29 日消息,阿里云在新年到来之际推出了全新通义千问 Qwen 2.5-Max 超大规模 MoE 模型,用户可以通过API进行访问,此外,还可以登录Qwen Chat进行使用,体验与模型的互动,或利用其提供的 artifacts、搜索等功能。

据悉,通义千问 Qwen 2.5-Max 是基于超过 20 万亿 token 的预训练数据和精细化的后训练策略进行训练的。

模型性能

阿里云将其指令模型的性能与其他模型进行了直接比较(IT之家注:指令模型指的是可直接对话的模型)。比较的对象包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet,以下是比较结果:

在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基准测试中,Qwen 2.5-Max 的表现超越了 DeepSeek V3,并且在 MMLU-Pro 等其他评估中也展现出了极具竞争力的结果。

在基座模型的比较中,由于对 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型基座模型的访问限制,阿里云将 Qwen 2.5-Max 与领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B,以及位于开源稠密模型前列的 Qwen 2.5-72B 进行了比较。下图展示了对比结果:

我们的基座模型在大多数基准测试中表现出显著的优势。我们坚信,随着后训练技术的不断进步,Qwen 2.5-Max 的下一个版本将会更加强大。

广告声明:文中所引用的外部链接(包括超链接、二维码、口令等形式),旨在传递更多信息,节省用户查找时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容