阿里云推出最新通义千问 QwQ-32B 推理模型并开源,仅 1/20 参数媲美 DeepSeek R1
IT之家于3月6日发布消息显示,研究指出强化学习能够显著增强模型的推理能力。例如,DeepSeek-R1通过整合冷启动数据以及多阶段的训练方式,取得了业界领先的性能,能够进行复杂的推理与深度思考。
今天,阿里云通义千问正式推出最新的推理模型 QwQ-32B。该模型拥有320亿个参数,性能可与6710亿参数(其中370亿活跃参数)的DeepSeek-R1媲美。
这一进展展示了将强化学习应用于大规模预训练基础模型的有效性。此外,我们在推理模型中集成了与Agent相关的功能,使其能够在工具使用的同时进行批判性思维,并根据环境反馈调整推理过程。
目前,QwQ-32B已在 Hugging Face (https://huggingface.co/Qwen/QwQ-32B)和 ModelScope (https://modelscope.cn/models/Qwen/QwQ-32B)上开源,遵循Apache 2.0开源协议。IT之家提醒用户也可以通过Qwen Chat(https://chat.qwen.ai/?models=Qwen2.5-Plus)进行直接体验。
在性能方面,阿里云对QwQ-32B进行了数学推理、编程能力与通用能力的测试,并展示了其与其他顶尖模型的性能比较,包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini及原版DeepSeek-R1。
在数学能力的AIME24评测集以及编程能力的LiveCodeBench评测中,千问QwQ-32B的表现与DeepSeek-R1相当,显著领先于o1-mini及同样规模的R1蒸馏模型;在“最难LLMs评测榜”LiveBench、谷歌提出的指令遵循能力IFEval评测集以及由加州大学伯克利分校提出的函数调用准确性评测BFCL中,千问QwQ-32B的得分都超越了DeepSeek-R1。
阿里云表示,这标志着Qwen在强化学习(RL)增强推理能力方面所迈出的重要一步。此过程不仅展示了扩展RL的巨大潜能,也揭示了预训练语言模型尚未探索的可能性。
在研发下一代Qwen的过程中,阿里云计划将更强大的基础模型与依托大规模计算资源的RL结合,向实现人工通用智能(AGI)更近一步。此外,阿里云也在积极探索将智能体与RL集成的方案,以实现长时推理,目标是通过延长推理时间来释放更高的智能,敬请期待。
广告声明:文内包含的对外跳转链接(包括但不限于超链接、二维码、口令等形式)旨在传递更多信息,帮助读者节省搜索时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。