网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

阿里开源最强推理模型 QwQ-32B，看齐 DeepSeek-R1，科学推理接近研究生水平

2025-03-06 10:59:22　来源: AppSo

广东举报

0

分享至

阿里开源 QwQ-32B，再一次证明强化学习是属于未来的技术路线。

QwQ-32B 拥有 320 亿个参数的模型，其性能可与拥有 6710 亿个参数的 DeepSeek-R1 相媲美。除了是阿里送出的开源力作，这一成果也凸显了 RL 的有效性。

QwQ-32B 展示出接近研究生水平的科学推理能力，在数学推理和编程问题上表现尤为出色。

强化学习非常值得应用于基于广泛世界知识进行预训练的基础模型。相比传统的纯监督学习，强化学习允许模型通过试错和反馈不断优化推理策略，特别适用于需要多步推理、答案明确正确或错误的任务场景。

例如，有研究直接对基本模型应用大规模 RL 来探索链式思维（CoT），结果模型自发涌现出自我验证、反思和生成长推理链等强大的推理行为。

阿里在 QwQ-32B 的训练中，把强化学习用于后期优化模型的推理策略。具体而言，研究团队在模型预训练和有监督微调（SFT）后，引入了基于奖励的策略优化。模型首先通过大量含链式思考过程的数据进行预训练和微调，使其掌握基本的推理格式；随后应用强化学习，让模型在交互式环境中进一步自我提升。

然而仅靠 RL 的模型，可能出现重复循环、表述冗长、语言混杂等问题。为此，QwQ-32B 在 RL 优化时结合了适当的监督数据「冷启动」，既保证模型探索复杂推理路径，又维持回答的可读性和连贯性。

总之，强化学习为 QwQ 注入了「探索」能力，模型可以通过持续试错来优化自己的思路，逐步逼近最优解。

除了实力强劲之外，QwQ-32B 的一大看点，是它的轻量级，可以在单一机器上高效运行，有助于节省由于大型模型大小和管道以及服务器上的专家并行带来的复杂性。

Qwen Chat 的访问入口已经开通，注意：默认打开的模型是 Qwen 2.5，要打开下拉菜单，选择 32B。
https://chat.qwen.ai/?models=Qwen2.5-Plus

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

俄英战机"空中拼刺刀" 英称苏27六次横切6米"贴脸"拦截

环球网资讯 2026-05-22 13:12:47
7095 跟贴 7095
有毒，千万别摘！南京街头已出现

环球网资讯 2026-05-22 14:47:11
110 跟贴 110

中国迎来“天命时刻”！沈逸：成为全球战略稳定与发展的核心动力

海峡导报社 2026-05-22 17:22:28
58 跟贴 58

行车记录仪时速不到60km，监控抓拍时速却达121km，厢货车司机叫屈；交警：记录仪不具备法定测速资质

大风新闻 2026-05-22 17:59:04
1315 跟贴 1315
法国政府宣布新增7.1亿欧元援助

每日经济新闻 2026-05-22 08:21:36
1789 跟贴 1789

无锡一公园用墓碑铺路，刻有“先父”“贤妻”字样，游客直呼难以接受，公园回应

潇湘晨报 2026-05-22 16:07:14
246 跟贴 246

美退役海军中将接受采访画面引争议：颈部怪异被质疑戴面具

环球网资讯 2026-05-22 13:44:12
117 跟贴 117
天津女子跳伞坠亡后续：原定筹备大婚，家属曝光遗言，果不简单

杰丝聊古今 2026-05-23 03:58:20
0 跟贴 0

第十六届“春兰杯”开幕，柯洁时隔16个月重返国际赛场

新京报 2026-05-22 20:58:40
73 跟贴 73
詹姆斯：马刺的运气好到离谱从上将到邓肯再到现在的文班亚马

北青网-北京青年报 2026-05-22 10:50:09
155 跟贴 155
水蜜桃饮品中水蜜桃添加量0.01克，康师傅回应称符合标准

南方都市报 2026-05-21 19:55:57
1164 跟贴 1164
苏超球员入选国家队！苗润东、宋恒达、张桐瑞入选U19国足集训名单

现代快报 2026-05-22 20:21:27
48 跟贴 48
“张雪机车”车手德比斯直播首秀，张雪现身当“榜一大哥”并表示：“掏空家底了，老德今天够给你面子了吧”

封面新闻 2026-05-22 10:34:44
1460 跟贴 1460
当领导说视频要竖屏的，于是我...... #睡个好觉

环球网资讯 2026-05-22 22:26:23
24 跟贴 24
荣耀回应IPO问题：上市没有终止开放员工减持通道

界面新闻 2026-05-22 20:41:21
66 跟贴 66
山姆会员费成自助餐费？货架现骨头残渣和空瓶，在华67家店被呼吁约束“薅羊毛”

界面新闻 2026-05-22 13:50:31
1 跟贴 1
C罗梅开二度，首夺沙特联赛冠军，职业生涯已斩获37冠

大象新闻 2026-05-22 08:46:04
398 跟贴 398
瑞幸咖啡酒精特调上架初中生轻松买到

界面新闻 2026-05-19 22:04:05
539 跟贴 539
崂山景区云雾缭绕

半岛官网 2026-05-20 09:29:18
1088 跟贴 1088
河南一景区现“爬不动了吧哈哈哈哈”标语，游客感觉不被尊重，景区：已撤除，本意是缓解爬山压力

极目新闻 2026-05-19 14:48:26
0 跟贴 0

极目调查丨“少震之地”柳州遭遇331年来最强震：存缺陷的自建房暴露安全软肋，一些房子无立柱，有居民坦言“没考虑防震”

极目调查丨“少震之地”柳州遭遇331年来最强震：存缺陷的自建房暴露安全软肋，一些房子无立柱，有居民坦言“没考虑防震”

极目新闻

2026-05-22 22:03:08

我外交部发声后，美国暂停140亿美元对台军售，民进党反应亮了

我外交部发声后，美国暂停140亿美元对台军售，民进党反应亮了

DS北风

2026-05-22 13:50:26

西洋参的“好搭档”找到了，坚持泡水喝，肝变干净，睡眠也好

西洋参的“好搭档”找到了，坚持泡水喝，肝变干净，睡眠也好

芹姐说生活

2026-05-22 16:19:57

郑伊健路边摊被偶遇，头发稀疏成这样了？49岁蒙嘉慧胖到认不出

郑伊健路边摊被偶遇，头发稀疏成这样了？49岁蒙嘉慧胖到认不出

一盅情怀

2026-05-22 13:38:45

揭秘“崩老头”骗局全流程，打打字竟然可以轻松月入过万！

揭秘“崩老头”骗局全流程，打打字竟然可以轻松月入过万！

爆角追踪

2026-05-22 15:11:02

中央气象台：23日夜间至27日，陕西、重庆、河南、安徽、湖南、湖北、江苏、江西等地有大到暴雨，江南北部将有雷暴大风或冰雹等强对流天气

中央气象台：23日夜间至27日，陕西、重庆、河南、安徽、湖南、湖北、江苏、江西等地有大到暴雨，江南北部将有雷暴大风或冰雹等强对流天气

鲁中晨报

2026-05-22 17:46:13

小因扎吉：我们是本赛季全世界唯一不败球队，很遗憾无缘冠军

小因扎吉：我们是本赛季全世界唯一不败球队，很遗憾无缘冠军

懂球帝

2026-05-22 06:56:16

武汉28岁孕妇失联后续：丈夫行为存疑，深夜注销账号，细节披露

武汉28岁孕妇失联后续：丈夫行为存疑，深夜注销账号，细节披露

李晚书

2026-05-22 10:57:52

周琦被打爆，上海队上演20分大逆转晋级决赛，首钢雇佣军成为笑谈

周琦被打爆，上海队上演20分大逆转晋级决赛，首钢雇佣军成为笑谈

姜大叔侃球

2026-05-22 21:58:46

太突然！俄方传出消息，普京和特朗普或将会面，地点选在中国深圳

太突然！俄方传出消息，普京和特朗普或将会面，地点选在中国深圳

无情有思ss

2026-05-22 12:22:55

80后地产女王自杀，倒在楼市黎明前

80后地产女王自杀，倒在楼市黎明前

南风窗

2026-05-22 17:14:35

腾讯承诺：不再与《附加限制性条件承诺方案》中定义的版权方达成或变相达成版权独家授权合同

腾讯承诺：不再与《附加限制性条件承诺方案》中定义的版权方达成或变相达成版权独家授权合同

界面新闻

2026-05-22 16:07:00

形势有多严峻？网传2026年520舔狗经济崩溃了，评论区炸锅…

形势有多严峻？网传2026年520舔狗经济崩溃了，评论区炸锅…

慧翔百科

2026-05-22 17:32:34

4岁男童"特训营"内被殴打致死，教母男友被捕

4岁男童"特训营"内被殴打致死，教母男友被捕

生活观察员啊

2026-05-22 01:40:55

穆里尼奥凉了！皇马最大王牌出手了，弗洛伦蒂诺慌了

穆里尼奥凉了！皇马最大王牌出手了，弗洛伦蒂诺慌了

奶盖熊本熊

2026-05-23 02:30:23

淘汰北京更衣室！王哲林点洛夫顿，刘铮力挺双李，张镇麟强调团队

淘汰北京更衣室！王哲林点洛夫顿，刘铮力挺双李，张镇麟强调团队

篮球资讯达人

2026-05-23 03:14:42

“必须严查！”近日报道，江苏南京，25岁女孩因私处肿痛就医

“必须严查！”近日报道，江苏南京，25岁女孩因私处肿痛就医

周哥一影视

2026-05-22 01:38:24

南京西路40年老鞋店将闭店：84岁阿姨从杨浦三次专程赶来道别，连买4双鞋直说拎着就是幸福感！

南京西路40年老鞋店将闭店：84岁阿姨从杨浦三次专程赶来道别，连买4双鞋直说拎着就是幸福感！

新闻晨报随申Hi

2026-05-22 15:14:27

天文学家：天鹅座方向的星际空间发生剧烈抖动

天文学家：天鹅座方向的星际空间发生剧烈抖动

星空天文

2026-05-22 00:00:17

柬媒爆料：中国15家企业承诺，送50万人去柬！1000多条评论很一致

柬媒爆料：中国15家企业承诺，送50万人去柬！1000多条评论很一致

消失的电波

2026-05-22 21:31:30

让智能手机更好用的秘密

6410文章数 26841关注度

往期回顾全部

科技要闻

雷军：输给特斯拉不丢人

头条要闻

伊朗前总统内贾德被指是"最大内鬼" 其目前下落不明

头条要闻

伊朗前总统内贾德被指是"最大内鬼" 其目前下落不明

体育要闻

最糟糕裁判？他想要退役当市长

娱乐要闻

周也恋情曝光！对象身份不简单

财经要闻

富途拟被罚18.5亿元老虎长桥也回应了

汽车要闻

11万级直接上四驱银河星耀7限时权益价9.88万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

数码

旅游

家居

军事航空

教育要闻

教师吐槽凌晨验菜收菜，老师破防：没资质、没精力、担不起责任

数码要闻

OPPO Enco Air5s耳机规格公布，5月25日发布

旅游要闻

楚雄双柏爱尼山乡观鸟经济带动生态旅游开门红

家居要闻

低调传承温润沉静

军事要闻

俄罗斯试射具备核打击能力的高超音速导弹

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版