阿里通义千问团队开源QwQ-32B模型规模更小但性能媲美DeepSeek-R1-671B

#人工智能阿里通义千问团队开源 QwQ-32B 模型，规模更小但性能媲美 DeepSeek-R1-671B 模型。该模型通过 RL 强化学习进行训练并提高模型的推理能力，同时也集成相关代理能够让模型利用工具的同时进行批判性思考。查看全文：https://ourl.co/108211

阿里巴巴通义千问 (Qwen) 团队发布博客宣布开源 QwQ-32B 模型，该模型拥有 320 亿个参数，但其性能媲美拥有 6710 亿个参数的 DeepSeek-R1 模型。

在博客中通义千问团队称扩展强化学习 RL 有潜力提升模型性能，超越传统的预训练和后训练方法。最近的研究表明，RL 可以显著提高模型的推理能力，例如 DeepSeek-R1 通过整合冷启动数据和多阶段训练实现了最先进的性能以及深度思考和复杂推理。

在研究探索强化学习的可扩展性及其对增强大型语言模型智能的影响，通义千问团队推出了 QwQ-32B 并且达到与 DeepSeek-R1-671B 的能力。

这个成果也凸显 RL 应用于基于广泛世界知识进行预训练的稳健基础模型时的有效性，通义千问也将代理相关的功能集成到推理模型中，让模型能够在利用工具的同时进行批判性思考，并根据环境反馈调整推理。

QwQ-32B 经过一系列基准测试旨在评估数学推理、代码编写和一般问题的解决能力，从基准测试可以看到该模型在能力方面表现不俗。

另外 QwQ-32B 目前已经在 Apache 2.0 许可证下通过 HuggingFace 和 ModelScope 开源，用户也可以通过 Qwen Chat 平台使用该模型。