网易首页 > 网易号 > 正文 申请入驻

DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了

0
分享至



机器之心报道

编辑:冷猫、陈陈

DeepSeek 一发布模型,总会引起业内的高度关注与广泛讨论,但也不可避免的暴露出一些小 Bug。

比如老外用英文询问,它却在思考过程中切回「神秘的东方文字」。当然,DeepSeek 模型对汉字「情有独钟」的情况早已出现,「极」字 Bug 就是典型例子。

而这一次,随着新模型 DeepSeek-V3.2 的发布,大家又发现了 DeepSeek 需要优化的地方:其长思考版本(Speciale)暴露出一些 Token 使用效率不佳的问题。

根据多位研究者反馈,DeepSeek-V3.2 Speciale 在处理复杂任务时出现明显的 Token 消耗异常。具体表现为:

在相同任务上,Gemini 只消耗 2 万 Token,DeepSeek-V3.2 Speciale 却用了 7.7 万,也就是说,它需要 3 倍以上的 Token 才能输出类似质量的结果。

另外,Speciale 版本出现输出内容又长又啰嗦的问题,但最终仍然错的情况,这并不是新问题,而是 GRPO 算法本身的固有缺陷。



来源:https://x.com/Compute_King/status/1996179050012794968

实际上,DeepSeek-V3.2 在 Token 消耗方面的异常表现,已经被不少用户与研究者观察到。有社区网友指出,Speciale 版本的确具备极强的推理能力,但在实际使用中 Token 消耗速度如喝水般迅速,显著高于同类模型。他们评价,如果 DeepSeek-V3.2 Speciale 的生成速度能够从当前的大约 30 tokens/s 提升至 100 tokens/s 左右,那么其综合可用性和使用体验都将获得大幅改善。



独立分析 AI 模型和托管服务提供商 Artificial Analysis 则表示:「DeepSeek V3.2 在推理模式下比上一代更啰嗦,在运行 AAII(Artificial Analysis Intelligence Index)基准测试时,输出 Token 消耗明显增加,达 8600 万,而上一版本仅为 6200 万。」



来源:https://x.com/ArtificialAnlys/status/1996110264102781332

「即使是和 Grok 和 Mistral 对比,也是明显看到 DeepSeek V3.2 输出 Token 的延迟。」



来源:https://x.com/kurtqian/status/1995728391115362529

这种情况,DeepSeek 也在技术报告中很坦诚的承认并且做出了数据对比。





报告中提及,DeepSeek-V3.2-Speciale 的 token 使用效率明显低于 Gemini-3.0-Pro。

为了降低部署成本并减少推理时延,官方版 DeepSeek-V3.2 的训练过程中施加了更为严格的 token 约束,以期在性能与成本之间取得更优的权衡。DeepSeek 研究者们表示,token 效率仍将是未来一个至关重要的研究方向。

DeepSeek 技术报告:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

输出内容又长又啰嗦,GRPO 算法存在缺陷

GRPO 算法随着 DeepSeek 的诞生而成为强化学习的黄金范式,相信读者们早就不陌生了。

我们对 GRPO 的方法基本原理曾有过系统的介绍,建议读者参考我们的科普文章。科普向:一文解构大模型后训练,GRPO 和它的继任者们的前世今生

早在今年三月份公开的论文《Understanding R1-Zero-Like Training: A Critical Perspective》中,来自 Sea AI Lab 和 NUS 等的研究者们,揭示了 GRPO 算法的两大问题,认为 GRPO 会导致模型有偏置的优化。



  • 论文标题:Understanding R1-Zero-Like Training: A Critical Perspective
  • 论文链接:https://arxiv.org/pdf/2503.20783
  • Github 链接:https://github.com/sail-sg/understand-r1-zero

在 DeepSeek-R1-Zero 的训练过程中,就已有模型的响应长度在整个训练阶段持续增长的现象,而在 DeepSeek-V3.2 Speciale 中仍然存在。

以下公式是经典的 GRPO 损失函数,论文作者很贴心地把影响优化过程的部分标红了:



GRPO 的目标函数结构中存在了:

1. 长度偏置(Length Bias)



  • 当优势函数为正值时(表示对应的响应是正确的):较短的响应会产生更大的梯度更新幅度,从而使策略在优化过程中更倾向于生成简短的正确答案。
  • 当优势函数为负值时(表示对应的响应是错误的):较长的错误响应所受到的惩罚反而更弱,从而导致策略在错误样本中偏向于生成更长的回答。

这解释了:即便不引入任何「显式鼓励长推理链」的机制,GRPO 训练出的模型也会自然呈现出响应长度不断增长的趋势,躲避惩罚,生成又错又长的回复。

2. 难度偏置(Difficulty Bias)

该偏置来源于优势函数中对优势函数进行标准化时所使用的分母:



这会导致当某些问题的回报标准差较小,尤其是题目过于困难,几乎所有回报都为 0 的时候,在策略更新过程中将被赋予更大的梯度权重,忽视了那些难度适中的实际问题。

我们从 DeepSeek-V3.2 的技术报告中发现,难度偏置已经被优化了,而长度偏置仍然被保留。这或许是 DeepSeek-V3.2 Speciale 超级耗 token 的罪魁祸首。



上述「长度偏置」问题其实由来已久,在 GRPO 的前身 PPO 方法中就早已存在。但是,在 PPO 的损失函数公式中其实并没有「长度偏置」这一项,而在 PPO 的大多开源实现中,却大都加入了这一项。

作者推测,这种不一致性可能源自预训练阶段:

所有 token 会被打包进一个固定长度的上下文窗口,通过对上下文长度进行归一化可以有效提升数值稳定性。

但在 RL 微调阶段保持相同的实现方式会,按照响应长度对损失进行归一化。但响应长度不是常数且在不同样本之间变化剧烈,从而无意中引入了一个长度偏置。

由此可见,理论和实际实现之间总有些许的差别。等到 DeepSeek-V4 的上线,这个问题会不会就此解决呢?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳水贝“杰我睿”最新进展:有消费者收到兑付方案,20g黄金+9000多元余额,兑付本金4856元

深圳水贝“杰我睿”最新进展:有消费者收到兑付方案,20g黄金+9000多元余额,兑付本金4856元

每日经济新闻
2026-02-01 17:45:18
开拓者老鹰达成3换1!杨瀚森添三分神射新队友 交易评级出炉

开拓者老鹰达成3换1!杨瀚森添三分神射新队友 交易评级出炉

罗说NBA
2026-02-02 04:03:35
中超“恒大系”复燃?曝郑智刚上任,就招募多名前恒大队友加盟!

中超“恒大系”复燃?曝郑智刚上任,就招募多名前恒大队友加盟!

罗掌柜体育
2026-02-01 10:52:47
郑钦文再退赛惹众怒!反复横跳像作秀,“一姐”位置已然不保

郑钦文再退赛惹众怒!反复横跳像作秀,“一姐”位置已然不保

一枚野球君
2026-02-01 12:39:35
郑爽完全变样了!抱孩子当街和张恒一家吵架,头发白了穿搭很邋遢

郑爽完全变样了!抱孩子当街和张恒一家吵架,头发白了穿搭很邋遢

叶公子
2026-02-01 18:05:30
豪门悲喜夜:皇马100分钟绝杀3-2 曼联94分钟破门3-2 热刺2-2曼城

豪门悲喜夜:皇马100分钟绝杀3-2 曼联94分钟破门3-2 热刺2-2曼城

狍子歪解体坛
2026-02-02 02:36:41
广东男篮13分完败不敌宁波,胡明轩9中2徐杰又受伤,杜锋场边无奈

广东男篮13分完败不敌宁波,胡明轩9中2徐杰又受伤,杜锋场边无奈

中国篮坛快讯
2026-02-01 21:49:46
印度暴发尼帕病毒疫情!医生提醒:侵袭呼吸系统和中枢神经系统,可能人传人,春节出行非必要不前往疫区

印度暴发尼帕病毒疫情!医生提醒:侵袭呼吸系统和中枢神经系统,可能人传人,春节出行非必要不前往疫区

封面新闻
2026-01-27 03:27:03
幼儿园女园长出轨小11岁男家长,原配年轻漂亮,双方照片流出

幼儿园女园长出轨小11岁男家长,原配年轻漂亮,双方照片流出

老猫观点
2026-01-29 08:38:02
俄为何要缺席判处击沉“莫斯科号”乌指挥官无期徒刑和巨额罚款?

俄为何要缺席判处击沉“莫斯科号”乌指挥官无期徒刑和巨额罚款?

高博新视野
2026-01-30 17:15:24
汇川技术董事长朱兴明3小时深度反省:我们这两年最大的问题,不是战略,而是“人”

汇川技术董事长朱兴明3小时深度反省:我们这两年最大的问题,不是战略,而是“人”

36氪
2026-02-01 09:18:11
这是唱的哪出戏?委内瑞拉代理女总统宣布大赦

这是唱的哪出戏?委内瑞拉代理女总统宣布大赦

史政先锋
2026-01-31 22:15:37
爱泼斯坦鸡腿人照片炸锅!案板火鸡旁疑似人腿,官方辟谣难平众怒

爱泼斯坦鸡腿人照片炸锅!案板火鸡旁疑似人腿,官方辟谣难平众怒

眼光很亮
2026-02-01 17:15:19
乌克兰战场再现士兵向机器人投降,俄罗斯严厉谴责美国对古巴封锁

乌克兰战场再现士兵向机器人投降,俄罗斯严厉谴责美国对古巴封锁

史政先锋
2026-02-01 19:11:54
这叫巧合?谁信?英国药业刚砸千亿投资,一大批中成药就被清退了

这叫巧合?谁信?英国药业刚砸千亿投资,一大批中成药就被清退了

青青子衿
2026-02-01 16:40:36
伴娘好看还是新娘好看​​​​

伴娘好看还是新娘好看​​​​

太急张三疯
2026-02-01 15:55:51
澳政府通告全球,撕毁99年租约!中方强硬出手,三大后果即将兑现

澳政府通告全球,撕毁99年租约!中方强硬出手,三大后果即将兑现

黑鹰观军事
2026-02-01 18:48:06
2025 年全球手机销量排行榜来了!第三名有点意外啊

2025 年全球手机销量排行榜来了!第三名有点意外啊

XCiOS俱乐部
2026-01-30 19:14:42
总统是间谍?美国最新机密文件显示:特朗普是傀儡,早已被以色列收买

总统是间谍?美国最新机密文件显示:特朗普是傀儡,早已被以色列收买

不掉线电波
2026-02-01 15:52:15
就剩日本了

就剩日本了

新民周刊
2026-02-01 09:09:29
2026-02-02 04:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

本地
房产
艺术
教育
公开课

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

教育要闻

鼓楼、玄武、建邺、秦淮多区教育局发布提醒!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版