阿里云推出最新通义千问 QwQ-32B 推理模型并开源，仅 1/20 参数媲美 DeepSeek R1

xxn 阅读：48986 2025-03-06 12:03:30 评论：0

感谢IT之家网友 weit枫提供的线索！

IT之家于3月6日发布消息显示，研究指出强化学习能够显著增强模型的推理能力。例如，DeepSeek-R1通过整合冷启动数据以及多阶段的训练方式，取得了业界领先的性能，能够进行复杂的推理与深度思考。

今天，阿里云通义千问正式推出最新的推理模型 QwQ-32B。该模型拥有320亿个参数，性能可与6710亿参数（其中370亿活跃参数）的DeepSeek-R1媲美。

这一进展展示了将强化学习应用于大规模预训练基础模型的有效性。此外，我们在推理模型中集成了与Agent相关的功能，使其能够在工具使用的同时进行批判性思维，并根据环境反馈调整推理过程。

目前，QwQ-32B已在 Hugging Face (https://huggingface.co/Qwen/QwQ-32B)和 ModelScope (https://modelscope.cn/models/Qwen/QwQ-32B)上开源，遵循Apache 2.0开源协议。IT之家提醒用户也可以通过Qwen Chat（https://chat.qwen.ai/?models=Qwen2.5-Plus）进行直接体验。

在性能方面，阿里云对QwQ-32B进行了数学推理、编程能力与通用能力的测试，并展示了其与其他顶尖模型的性能比较，包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini及原版DeepSeek-R1。

在数学能力的AIME24评测集以及编程能力的LiveCodeBench评测中，千问QwQ-32B的表现与DeepSeek-R1相当，显著领先于o1-mini及同样规模的R1蒸馏模型；在“最难LLMs评测榜”LiveBench、谷歌提出的指令遵循能力IFEval评测集以及由加州大学伯克利分校提出的函数调用准确性评测BFCL中，千问QwQ-32B的得分都超越了DeepSeek-R1。

阿里云表示，这标志着Qwen在强化学习（RL）增强推理能力方面所迈出的重要一步。此过程不仅展示了扩展RL的巨大潜能，也揭示了预训练语言模型尚未探索的可能性。

在研发下一代Qwen的过程中，阿里云计划将更强大的基础模型与依托大规模计算资源的RL结合，向实现人工通用智能（AGI）更近一步。此外，阿里云也在积极探索将智能体与RL集成的方案，以实现长时推理，目标是通过延长推理时间来释放更高的智能，敬请期待。

广告声明：文内包含的对外跳转链接（包括但不限于超链接、二维码、口令等形式）旨在传递更多信息，帮助读者节省搜索时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。