阿里云推出最新通义千问 QwQ-32B 推理模型并开源,仅 1/20 参数媲美 DeepSeek R1

xxn 阅读:48986 2025-03-06 12:03:30 评论:0
感谢IT之家网友 weit枫 提供的线索!

IT之家于3月6日发布消息显示,研究指出强化学习能够显著增强模型的推理能力。例如,DeepSeek-R1通过整合冷启动数据以及多阶段的训练方式,取得了业界领先的性能,能够进行复杂的推理与深度思考。

今天,阿里云通义千问正式推出最新的推理模型 QwQ-32B。该模型拥有320亿个参数,性能可与6710亿参数(其中370亿活跃参数)的DeepSeek-R1媲美。

这一进展展示了将强化学习应用于大规模预训练基础模型的有效性。此外,我们在推理模型中集成了与Agent相关的功能,使其能够在工具使用的同时进行批判性思维,并根据环境反馈调整推理过程。

目前,QwQ-32B已在 Hugging Face (https://huggingface.co/Qwen/QwQ-32B)和 ModelScope (https://modelscope.cn/models/Qwen/QwQ-32B)上开源,遵循Apache 2.0开源协议。IT之家提醒用户也可以通过Qwen Chathttps://chat.qwen.ai/?models=Qwen2.5-Plus)进行直接体验。

在性能方面,阿里云对QwQ-32B进行了数学推理、编程能力与通用能力的测试,并展示了其与其他顶尖模型的性能比较,包括DeepSeek-R1-Distilled-Qwen-32BDeepSeek-R1-Distilled-Llama-70B、o1-mini及原版DeepSeek-R1。

在数学能力的AIME24评测集以及编程能力的LiveCodeBench评测中,千问QwQ-32B的表现与DeepSeek-R1相当,显著领先于o1-mini及同样规模的R1蒸馏模型;在“最难LLMs评测榜”LiveBench、谷歌提出的指令遵循能力IFEval评测集以及由加州大学伯克利分校提出的函数调用准确性评测BFCL中,千问QwQ-32B的得分都超越了DeepSeek-R1。

阿里云表示,这标志着Qwen在强化学习(RL)增强推理能力方面所迈出的重要一步。此过程不仅展示了扩展RL的巨大潜能,也揭示了预训练语言模型尚未探索的可能性。

在研发下一代Qwen的过程中,阿里云计划将更强大的基础模型与依托大规模计算资源的RL结合,向实现人工通用智能(AGI)更近一步。此外,阿里云也在积极探索将智能体与RL集成的方案,以实现长时推理,目标是通过延长推理时间来释放更高的智能,敬请期待。

广告声明:文内包含的对外跳转链接(包括但不限于超链接、二维码、口令等形式)旨在传递更多信息,帮助读者节省搜索时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容