网易首页 > 网易号 > 正文 申请入驻

阿里开源QwQ-32B!以1/21小参数媲美DeepSeek R1性能,成本仅1/10

0
分享至

阿里AI又有新动作!最新推理模型QwQ-32B证明了小参数也能实现大模型级别的性能。

3月6日,阿里通义千问Qwen团队推出推理模型——QwQ-32B大语言模型。据官方介绍,这款仅有320亿参数的模型在性能上不仅能够媲美拥有6710亿参数的DeepSeek-R1(其中370亿被激活),更在某些测试中超越了对方。

阿里Qwen团队表示,这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性,希望以此证明强大的基础模型叠加大规模强化学习也许是一条通往通用人工智能的可行之路。

除了基础推理能力外,QwQ-32B还集成了与Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。

参数精简,性能不减,成本仅1/10

根据官方披露的测试结果,QwQ-32B在多项关键评测中表现卓越:

在测试数学能力的AIME24评测集上,QwQ-32B与DeepSeek-R1表现相当,远超o1-mini及同尺寸的R1蒸馏模型
在评估代码能力的LiveCodeBench中,表现同样与DeepSeek-R1相当
在Meta首席科学家杨立昆领衔的"最难LLMs评测榜"LiveBench上,QwQ-32B得分超越DeepSeek-R1
在谷歌等提出的指令遵循能力IFEval评测集中,成绩优于DeepSeek-R1
在加州大学伯克利分校等提出的评估准确调用函数或工具的BFCL测试中,同样超越DeepSeek-R1

有海外网友展示了不同推理模型在LiveBench评分中的表现,以及它们的输出令牌成本。QwQ 32B模型的评分位于R1和o3-mini之间,但其成本仅为它们的十分之一。这表明QwQ 32B在性能和成本之间取得了很好的平衡:

  • QwQ 32B的LiveBench评分约为72.5分,成本约为$0.25。
  • R1的评分约为70分,成本约为$2.50。
  • o3-mini的评分约为75分,成本约为$5.00。

有手快的网友已经部署使用,表示在笔记本电脑上运行速度很快,并展示了思考过程:

强化学习:QwQ-32B 的“秘密武器”

QwQ-32B的卓越性能主要归功于其采用的大规模强化学习方法。阿里团队在冷启动基础上开展了分阶段强化学习训练策略:

初始阶段:重点针对数学和编程任务进行RL训练。团队摒弃了传统的奖励模型(reward model),转而采用更直接的验证方式,通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。
扩扩展阶段:增加了针对通用能力的RL训练。这一阶段使用通用奖励模型和基于规则的验证器,帮助模型在保持数学和编程能力的同时,提升其他通用能力。

研究表明,随着RL训练轮次的增加,模型在数学和编程领域的性能均呈现持续提升趋势,印证了这种方法的有效性。

QwQ-32B已开源,推动大模型从"大力出奇迹"向"精巧出智慧"的范式转变

目前,QwQ-32B已在Hugging Face和ModelScope平台开源,采用Apache 2.0开源协议。同时,用户也可以通过Qwen Chat直接体验这款强大的推理模型。

阿里Qwen团队表示,QwQ-32B只是他们在大规模强化学习增强推理能力方面的第一步。未来,他们将致力于将更强大的基础模型与依托规模化计算资源的RL相结合,并积极探索将智能体与RL集成,以实现长时推理,目标是通过推理时间扩展释放更高的智能。

随着模型参数规模的增长已经进入瓶颈期,如何在现有参数规模下进一步提升模型能力成为业界关注焦点。QwQ-32B的突破或将引领新一轮AI技术发展方向,进一步推动从"大力出奇迹"向"精巧出智慧"的范式转变。

对此,科技自媒体数字生命卡兹克感叹道:

这波QwQ-32B开源的意义,还是非常强的。
它用实力证明RLHF路线还能玩出花,打破了一些人对GPT4.5撞墙后的过度悲观。
用中等规模却拿到高级性能,给开源界注入了强大信心,你也不必搞那种天价设备和超大规模,也有机会跟国际巨头同场竞技。

QwQ-32B的发布与阿里近期宣布的AI战略高度一致。据报道,阿里集团计划在未来三年投入超过3800亿元建设云和AI硬件基础设施,总投入将超过过去十年总和。

此前,阿里自研的"深度思考"推理模型已在夸克AI搜索平台上线,成为国内少数没有接入DeepSeek的大体量C端AI应用。

在基础模型层面,阿里通义大模型家族已跻身全球顶尖开源模型行列。有知情人士透露,"更大规模的模型也将陆续接入夸克"。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不死就不罢休?伊朗自断退路:你们知道我这47年是怎么过的吗?

不死就不罢休?伊朗自断退路:你们知道我这47年是怎么过的吗?

音乐时光的娱乐
2026-03-26 14:01:59
养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

财经保探长
2026-03-19 19:39:45
伊朗伊斯兰革命卫队、伊朗武装部队同时发声!

伊朗伊斯兰革命卫队、伊朗武装部队同时发声!

看看新闻Knews
2026-03-23 17:17:11
杜锋发布会发飙,反问记者,球迷为陈家政担心:你可以离开球队了

杜锋发布会发飙,反问记者,球迷为陈家政担心:你可以离开球队了

南海浪花
2026-03-26 00:26:05
轰23+21+19创八纪录!约基奇背仅差32助达成场均三双 1点中锋第一

轰23+21+19创八纪录!约基奇背仅差32助达成场均三双 1点中锋第一

颜小白的篮球梦
2026-03-26 12:45:33
肯豆不穿内搭不尴尬吗?

肯豆不穿内搭不尴尬吗?

乡野小珥
2026-03-26 08:38:37
48岁赵薇“女儿”因长得太好看,被全网“禁止整容”,如今17岁变化大到不敢认!

48岁赵薇“女儿”因长得太好看,被全网“禁止整容”,如今17岁变化大到不敢认!

背包旅行
2026-03-24 17:09:33
NBA正式扩军!狂砸100亿啊,再见,森林狼or灰熊,东部见

NBA正式扩军!狂砸100亿啊,再见,森林狼or灰熊,东部见

球童无忌
2026-03-26 11:34:27
古代战争成千上万人尸体去哪了?1995年挖开一个坑,让人后背发凉

古代战争成千上万人尸体去哪了?1995年挖开一个坑,让人后背发凉

小莜读史
2026-03-24 19:24:44
【完整版】雷迪克赛后:谈詹姆斯角色 谈布朗尼进步 谈轮换策略

【完整版】雷迪克赛后:谈詹姆斯角色 谈布朗尼进步 谈轮换策略

兰亭墨未干
2026-03-26 14:49:13
盘点现役出道十年以上的岛国启蒙老师,陪你度过多少夜晚?

盘点现役出道十年以上的岛国启蒙老师,陪你度过多少夜晚?

吃瓜党二号头目
2026-03-26 14:55:08
广东3消息!杜锋彻底破防,胡明轩被批不配顶薪,焦泊乔最新伤情

广东3消息!杜锋彻底破防,胡明轩被批不配顶薪,焦泊乔最新伤情

多特体育说
2026-03-25 23:43:21
这就是钱学森后人真实的样貌,女儿定居美国,儿子长孙精忠报国!

这就是钱学森后人真实的样貌,女儿定居美国,儿子长孙精忠报国!

旧史新谭
2026-03-25 13:15:22
亲美派密谋推翻郑丽文,朱立伦要另立党中央,国民党出现五个太阳

亲美派密谋推翻郑丽文,朱立伦要另立党中央,国民党出现五个太阳

流史岁月
2026-03-25 13:55:07
李梓萌,私生活传闻太荒唐

李梓萌,私生活传闻太荒唐

做一个合格的吃瓜群众
2026-03-21 19:20:55
女人爱听这些两性关系中的“下流话”,尤其是过了中年的女人

女人爱听这些两性关系中的“下流话”,尤其是过了中年的女人

i书与房
2026-03-25 16:30:22
女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

情感艺术家
2026-02-26 10:48:00
炸穿阿瓦士!美以联手端掉伊朗革命卫队总部,现场夷成白地

炸穿阿瓦士!美以联手端掉伊朗革命卫队总部,现场夷成白地

老马拉车莫少装
2026-03-23 13:00:44
李霄鹏:会关注王钰栋,他有可能成为未来中国足球的领军人物

李霄鹏:会关注王钰栋,他有可能成为未来中国足球的领军人物

懂球帝
2026-03-26 08:56:59
乌克兰摧毁波罗的海最大的俄方港口!圣彼得堡机场被迫关闭

乌克兰摧毁波罗的海最大的俄方港口!圣彼得堡机场被迫关闭

项鹏飞
2026-03-23 20:18:18
2026-03-26 15:55:00
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
143563文章数 2653025关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
旅游
数码
时尚
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

旅游要闻

济南动物园“花朝荟”系列活动浪漫上演

数码要闻

三星更新870 EVO系列SATA SSD:最高8TB 定价超1万元

皮衣+裙,高级到炸

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版