阿里开源 QwQ-32B,再一次证明强化学习是属于未来的技术路线。
QwQ-32B 拥有 320 亿个参数的模型,其性能可与拥有 6710 亿个参数的 DeepSeek-R1 相媲美。除了是阿里送出的开源力作,这一成果也凸显了 RL 的有效性。
QwQ-32B 展示出接近研究生水平的科学推理能力,在数学推理和编程问题上表现尤为出色。
强化学习非常值得应用于基于广泛世界知识进行预训练的基础模型。相比传统的纯监督学习,强化学习允许模型通过试错和反馈不断优化推理策略,特别适用于需要多步推理、答案明确正确或错误的任务场景。
例如,有研究直接对基本模型应用大规模 RL 来探索链式思维(CoT),结果模型自发涌现出自我验证、反思和生成长推理链等强大的推理行为。
阿里在 QwQ-32B 的训练中,把强化学习用于后期优化模型的推理策略。具体而言,研究团队在模型预训练和有监督微调(SFT)后,引入了基于奖励的策略优化。模型首先通过大量含链式思考过程的数据进行预训练和微调,使其掌握基本的推理格式;随后应用强化学习,让模型在交互式环境中进一步自我提升。
然而仅靠 RL 的模型,可能出现重复循环、表述冗长、语言混杂等问题。为此,QwQ-32B 在 RL 优化时结合了适当的监督数据「冷启动」,既保证模型探索复杂推理路径,又维持回答的可读性和连贯性。
总之,强化学习为 QwQ 注入了「探索」能力,模型可以通过持续试错来优化自己的思路,逐步逼近最优解。
除了实力强劲之外,QwQ-32B 的一大看点,是它的轻量级,可以在单一机器上高效运行,有助于节省由于大型模型大小和管道以及服务器上的专家并行带来的复杂性。
Qwen Chat 的访问入口已经开通,注意:默认打开的模型是 Qwen 2.5,要打开下拉菜单,选择 32B。
https://chat.qwen.ai/?models=Qwen2.5-Plus
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.