网易首页 > 网易号 > 正文 申请入驻

阿里32B新模型比肩满血DeepSeek-R1!苹果Mac本地可跑,网友已玩疯

0
分享至

智东西3月6日报道,今日凌晨,阿里云发布最新推理模型QwQ-32B,性能媲美DeepSeek-R1,在消费级显卡上也能实现本地部署。

要知道其参数量为32B,DeepSeek-R1参数量达到了671B,相差将近20倍。

在数学推理、编程能力上,QwQ-32B的表现与DeepSeek-R1相当,强于o1-mini及相同尺寸的R1蒸馏模型。通用能力测评效果上,QwQ-32B的得分均超越DeepSeek-R1。

苹果的机器学习科学家Awni Hannun(吴恩达学生)发文展示了QwQ-32B在配备MLX(专门为苹果芯片设计的开源框架)的M4 Max芯片电脑上的运行速度很快。

该模型在Hugging Face和ModelScope上以Apache 2.0许可证下的开源。这意味着它可用于商业和研究用途,因此企业可以立即使用它来为他们的产品和应用程序提供动力(即使是他们向客户收费使用的产品和应用程序)。

Hugging Face地址:huggingface.co/Qwen/QwQ-32B

魔搭社区地址:https://modelscope.cn/models/Qwen/QwQ-32B

体验地址:https://huggingface.co/spaces/Qwen/QwQ-32B-Demo

一、网友赞不绝口:推理速度“非常快”、“o1-mini级别本地模型”

具体来看QwQ-32B在一系列基准测试中的得分。

QwQ-32B与DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini以及DeepSeek-R1进行了对比。

在测试数学能力的AIME24评测集上,以及评估代码能力的LiveCodeBench中,QwQ-32B表现与DeepSeek-R1相当,强于o1-mini及相同尺寸的R1蒸馏模型。

在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,QwQ-32B得分超越DeepSeek- R1。

QwQ-32B的优势还在于,QwQ-32B需要GPU上的24GB vRAM(英伟达H100为80GB),而运行完整的DeepSeek R1需要超过1500GB vRAM。

社交平台X上的网友已经为之疯狂,到处充斥着“太震惊了”的言论。

机器学习爱好者Vaibhav (VB) Srivastav强调了QwQ-32B的推理速度,称其“非常快”,可与顶级模型相媲美。

网友晒出了在M4 Max芯片的MacBook上运行的推理速度:

AI新闻发布者@Chubby称QwQ-32 B太疯狂了!

Hyperbolic Labs的联合创始人兼首席技术官Yuchen Jin发文称:“小模型太强大了!”

有网友尝试了QwQ-32B的编码能力,并称赞其是o1-mini级别的可本地部署模型。他的提示词是”Create an amazing animation using p5js(“使用p5.js创建一个精彩的动画”)。效果如下:

不过也有网友指出,巨大的尺寸差异意味着用户需要大约5%的高带宽内存来进行推理。

二、扩展强化学习,可持续提高数学、编码能力

研究人员在冷启动的基础上开展了大规模强化学习。在初始阶段,他们特别针对数学和编程任务进行了强化学习训练。

与依赖传统的奖励模型(reward model)不同,他们通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。随着训练轮次的推进,这两个领域中的性能均表现出持续的提升。

QwQ-32B的强化学习过程分两个阶段执行:

数学和编码重点:使用用于数学推理的准确性验证器和用于编码任务的代码执行服务器来训练该模型。这种方法确保生成的答案在被强化之前被验证正确性。

通用能力增强:在第二阶段,模型使用通用奖励模型和基于规则的验证器接受奖励训练。这个阶段改进了指令遵循、人类对齐和代理推理,而不影响其数学和编码能力。

QwQ-32B遵循因果语言模型架构,并包括几个优化:

1、64个Transformer层,具有RoPE、SwiGLU、RMS Norm和Attention QKV偏置;

2、分组查询注意力(GQA),40个attention heads用于查询,8个attention heads用于键值对(key-value pairs);

3、扩展了131072个Tokens的上下文长度,允许更好地处理长序列输入;

4、多阶段训练,包括预训练,监督微调和RL。

凭借其强化学习驱动的推理能力,该模型可以提供更准确、结构化和上下文感知的见解,使其可用于自动化数据分析、战略规划、软件开发和智能自动化等用例具有价值。

为了获得最佳性能,通义千问团队建议使用以下设置:

1、强制正确输出:确保模型以“\n”开头,以防止生成空的思考内容,这会降低输出质量。如果你使用apply_chat_template并设置add_generation_prompt=True就可以自动实现,但可能会导致响应在开始时缺少标签。

2、采样参数:使用Temperature=0.6和TopP=0.95而不是Greedy解码,以避免无休止的重复;使用20到40之间的TopK来过滤掉罕见的Token出现,同时保持生成的输出多样性。

3、标准化输出格式:数学问题:包括“请一步一步推理,并把你的最终答案放在\boxed{}内。”在提示;多项选择题:将以下JSON结构添加到提示中,以标准化回答:“请在答案字段中仅显示选择字母,例如\“答案\”:\“C\”。

4、处于长文本输入:对于超过32768个Token的输入,启用YaRN以提高模型有效捕获长序列信息的能力。

此外,该模型支持使用vLLM(一种高吞吐量推理框架)进行部署。然而,vLLM的当前实现仅支持静态YaRN缩放,即无论输入长度如何,都保持固定的缩放因子。

结语:强化学习成下一代模型关键驱动

基于QwQ-32B,研究人员将强化学习定位为下一代AI模型的关键驱动力,证明可以产生高性能和有效的推理系统。

其博客中还提到,通义千问团队计划:进一步探索扩展RL以提高模型智能;将Agent与RL集成用于长时间推理;继续开发为RL优化的基础模型;通过更先进的训练技术向通用人工智能发展。

这是通义千问团队通过大规模强化学习以增强推理能力方面的第一步,其扩展了强化学习的巨大潜力,同时还展现出预训练语言模型中尚未开发的可能性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
印度裔抱团、代码被锁死、公司停摆,张江事件的致命教训!

印度裔抱团、代码被锁死、公司停摆,张江事件的致命教训!

A活着
2026-07-01 17:03:00
FIFA取消补水暂停却遭裁判“无视” 墨西哥球迷怒了

FIFA取消补水暂停却遭裁判“无视” 墨西哥球迷怒了

坠入温柔晚风
2026-07-02 01:28:48
曝Anthropic在Claude Code中嵌入隐蔽代码,无声标记中国用户路由信息

曝Anthropic在Claude Code中嵌入隐蔽代码,无声标记中国用户路由信息

西游日记
2026-07-01 07:53:27
“有你这样的妈,真丢人”,毕业典礼母亲出洋相,儿子一脸无奈

“有你这样的妈,真丢人”,毕业典礼母亲出洋相,儿子一脸无奈

熙熙说教
2026-07-01 19:29:52
我们有太多的不能说,​就像语言的难民,​流亡在自己的母语世界

我们有太多的不能说,​就像语言的难民,​流亡在自己的母语世界

律法刑道
2026-06-29 15:09:54
妻子因丈夫同性恋取向,授意丈夫组织他人同自己发生性关系|聚众淫乱案判决书(全文)

妻子因丈夫同性恋取向,授意丈夫组织他人同自己发生性关系|聚众淫乱案判决书(全文)

微法官
2026-07-01 14:05:06
赢球也洗不动!英格兰世界杯头号卧底!愚蠢操作坑惨全队

赢球也洗不动!英格兰世界杯头号卧底!愚蠢操作坑惨全队

澜归序
2026-07-02 02:43:06
Shams:马刺与托拜厄斯-哈里斯签下2年3100万美元的合同

Shams:马刺与托拜厄斯-哈里斯签下2年3100万美元的合同

懂球帝
2026-07-02 05:13:11
爆冷绝杀!19岁温瑞博一鸣惊人,淘汰顶级王牌,惊艳乒坛

爆冷绝杀!19岁温瑞博一鸣惊人,淘汰顶级王牌,惊艳乒坛

童叔不飙车
2026-07-02 01:12:10
57岁奥运冠军:宋凯去中国足协升官发财!疆超主教练睡队员家长

57岁奥运冠军:宋凯去中国足协升官发财!疆超主教练睡队员家长

念洲
2026-07-01 09:06:46
悲催!上海大妈以一己之力,断了儿子儿媳的财路,私教生意被叫停

悲催!上海大妈以一己之力,断了儿子儿媳的财路,私教生意被叫停

火山詩话
2026-07-01 16:00:16
金价暴跌,创13年来纪录

金价暴跌,创13年来纪录

极目新闻
2026-07-01 20:02:22
大家提前做好准备,如果一切正常,26年7月开始,国内恐出5大趋势

大家提前做好准备,如果一切正常,26年7月开始,国内恐出5大趋势

巢客HOME
2026-07-01 09:30:05
早上7点!CCTV5直播葡萄牙生死战 4.5万球迷见证 C罗或迎最后一舞

早上7点!CCTV5直播葡萄牙生死战 4.5万球迷见证 C罗或迎最后一舞

篮球圈里的那些事
2026-07-01 19:44:15
贝尔萨:一群工资百万的职业球员,连10分钟以上的专注都没有

贝尔萨:一群工资百万的职业球员,连10分钟以上的专注都没有

懂球帝
2026-07-01 21:58:08
高速上一特斯拉撞护栏起火,有人拍到一路过的理想车主拼命把特斯拉女司机救了出来,理想官方:我们也赞赏推崇这种善举

高速上一特斯拉撞护栏起火,有人拍到一路过的理想车主拼命把特斯拉女司机救了出来,理想官方:我们也赞赏推崇这种善举

都市快报橙柿互动
2026-07-01 17:38:55
离谱!湖人梭哈组三巨头吃掉4.75亿薪资,未来7年已无首轮可交易

离谱!湖人梭哈组三巨头吃掉4.75亿薪资,未来7年已无首轮可交易

新杀猪的秀才
2026-07-02 00:02:14
深夜利空!10股又减持,37股提示风险,7股收到问询函,别踩雷

深夜利空!10股又减持,37股提示风险,7股收到问询函,别踩雷

风风顺
2026-07-02 03:05:03
北京大妈公交车上打晕患癌姑娘,一巴掌断送退休后的美好幸福生活

北京大妈公交车上打晕患癌姑娘,一巴掌断送退休后的美好幸福生活

嘉琪Feel
2025-07-09 23:05:01
不要用国家安全的虚假信息吓唬老百姓了

不要用国家安全的虚假信息吓唬老百姓了

黔有虎
2026-06-30 21:27:56
2026-07-02 06:08:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12163文章数 117113关注度
往期回顾 全部

数码要闻

苹果筹备全新iPad Pro与重新设计的入门级MacBook Pro 并计划于明年上半年推出基础版M7芯片

头条要闻

凯恩梅开二度 英格兰2-1逆转民主刚果将战墨西哥

头条要闻

凯恩梅开二度 英格兰2-1逆转民主刚果将战墨西哥

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

77岁牛群公证裸捐全部财产,清贫独居坚持月捐

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

科技要闻

Claude Code被曝“植入木马”识别中国用户

汽车要闻

同比暴涨188.4% 方程豹6月热销35607台

态度原创

本地
数码
健康
亲子
房产

本地新闻

强烈建议,全国高校都向这所大学看齐!

数码要闻

苹果MacBook全面涨价!2026年全球笔记本出货恐下跌13.6%

年糕汤圆别油炸,水煮清蒸更健康

亲子要闻

兰姐出差回北京,先去看小裙子!和小宝宝戴同款墨镜超开心!

房产要闻

洞察新局 | 2026年天河置业红盘图鉴

无障碍浏览 进入关怀版