网易首页 > 网易号 > 正文 申请入驻

8美元即可对DS V3.2做强化学习?腾讯优图提出Training-Free GRPO

0
分享至

在强化学习日益成为大模型性能突破关键的背景下,腾讯优图提出了一种“免训练”的GRPO方法,引发了关于成本、效率与创新路径的深层讨论。本文聚焦DeepSeek-V3.2的强化策略,剖析其背后的技术逻辑与行业意义,为AI研发者和产品经理提供一线洞察。



大模型虽强,但在专业领域表现往往不尽如人意。常见的解决方案是通过监督微调或者强化学习更新模型参数,但这背后是高昂的代价与新的局限:

  • 算力黑洞:单次训练动辄消耗数万美元,每一次迭代都是真金白银的投入
  • 泛化困境:通过参数微调优化的模型,往往泛化性不佳,只能胜任特定窄域任务。这导致企业不得不部署多个专用模型来覆盖完整业务需求,显著增加了系统复杂度和维护成本
  • 数据稀缺:需要大量高质量标注数据。

针对上述挑战,腾讯优图实验室提出Training-Free GRPO方法,这种方法的核心思想是:不修改模型参数,而是通过反复积累和迭代“经验知识”来指导模型行为。Training-Free GRPO的提出,将强化学习在超大规模LLM及复杂Agent系统上的训练成为可能,启动了低成本、高效率的强化学习新时代。从此,强化学习不再是巨头的专属游戏,每个开发者的小业务都能用得起、用得好。



论文标题:Training-Free Group Relative Policy Optimization

论文链接:https://arxiv.org/pdf/2510.08191

项目主页:GitHub – TencentCloudADP/youtu-agent at training_free_GRPO

01 方法

如图2所示,传统GRPO需要更新模型参数,而Training-Free GRPO冻结了模型参数,通过多轮强化学习不断更新优化经验库,在推理时注入学习到的经验知识,实现了零参数更新的强化学习效果



第一步:多路径探索(Rollout)

如图3左侧所示,对于每个问题,模型会生成多个不同的解答路径。就像让学生用不同方法解同一道题,能够观察各种可能的解题思路。比如在数学题中,有的路径可能选择复杂的坐标几何法,有的可能发现更巧妙的几何性质法。这种多路径探索帮助我们发现最优策略。



第二步:强化学习奖励(Reward)

奖励只需提供少量样本及其参考答案,提供一个优化的方向即可。每个生成的解答都会获得一个客观评分。这个评分可以是:(1)与标准答案的匹配度;(2)代码执行结果的正确性;(3)网页搜索任务的成功率。

第三步:语义优势提炼(Group Advantage)

如图3右侧所示,模型会自我反思:比较同一组内的不同解答,总结出:“为什么A方法得分高?B方法哪里出错了?”。比如在案例中,模型发现:

  • 成功路径:正确设定坐标方向,系统化验证所有条件
  • 失败路径:方向设定错误,缺乏完整性检查

这种语义层面的洞察比单纯的数值评分更有指导意义。

第四步:经验库优化(Optimization)

基于提炼出的语义优势,模型会动态更新经验知识库

  • 新增经验:添加被验证有效的解题策略
  • 修正经验:完善现有指导原则
  • 删除经验:淘汰被证明无效的方法

整个过程就像一位学生在不断更新学习笔记,积累沉淀学到的经验

02 评估

在数学推理上,仅用100个训练样本,花费约8-18美元,就能在已经足够强大的671B模型上继续提升性能。如表1所示,无论是否采用代码工具(CI,code interpreter)帮助解题,在AIME榜单上的Mean@32指标都能实现提升。



训练仅需要三个轮次,图4左侧子图中训练集Reward指标(橙色)和样本外AIME榜单上Mean@32指标(绿色和蓝色)都在稳步提升。右侧子图展现了训练中和样本外的平均工具调用次数均有所减少。这表明Training-Free GRPO 不仅能够鼓励正确的推理和行动,还能教会智能体找捷径,更高效明智地使用工具。



表4所示的网页搜索场景中,Training-Free GRPO同样无需更新模型参数,即可在DeepSeek-V3.1-Terminus强悍水平之上,实现了4.6%的Pass@1显著提升。



与传统强化学习(RL)方法相比,Training-Free GRPO实现了训练成本的数量级降低

  • 传统RL训练:约10,000美元(训练32B模型如Retool,400个step需要2万A100卡时)
  • Training-Free GRPO:约8~18美元(优化DeepSeek-V3.1或V3.2的671B模型)

同时,对于大多数非密集调用型的实际应用,专门准备GPU提供训练好的32B模型推理服务也带来一定的固定成本。而Training-Free GRPO无论训练和推理都仅需API,随用随付

这种方法特别适合:

  • 长尾细分场景适配:有一定价值,但无法支撑大规模训练和部署
  • 快速迭代场景:需要频繁更新的大模型应用
  • 预算有限团队:个人开发者,中小企业和研究机构

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
10万人挤在同一个小区?实探湖南最大“城中城”

10万人挤在同一个小区?实探湖南最大“城中城”

GA环球建筑
2025-11-13 15:38:30
400万亿什么时候来?等待我们的是什么?

400万亿什么时候来?等待我们的是什么?

混知房产
2025-11-13 20:41:06
震惊!北大研究发现,男性每增加一个亲生子女,死亡风险降低4%

震惊!北大研究发现,男性每增加一个亲生子女,死亡风险降低4%

火山诗话
2025-11-13 11:37:14
雷军大变脸,小米车主遭背刺,天塌了

雷军大变脸,小米车主遭背刺,天塌了

新浪财经
2025-11-13 20:48:47
燕梳楼:如果日本驱逐薛剑,就是向中国宣战!

燕梳楼:如果日本驱逐薛剑,就是向中国宣战!

燕梳楼频道
2025-11-13 12:44:36
保时捷又现神回复,友商:学不完,根本学不完!

保时捷又现神回复,友商:学不完,根本学不完!

LOGO研究所
2025-11-13 20:36:23
全网力挺!狗主人带9人砸门被邻居反杀,律师:这就是正当防卫

全网力挺!狗主人带9人砸门被邻居反杀,律师:这就是正当防卫

吃瓜局
2025-11-13 15:07:57
40岁C罗输急眼!肘击染红后鼓掌嘲讽主裁 离场时指鼻怒骂对手主帅

40岁C罗输急眼!肘击染红后鼓掌嘲讽主裁 离场时指鼻怒骂对手主帅

我爱英超
2025-11-14 06:30:36
当年追刘德华追到家破人亡,如今她47岁独居未婚,王晶说得真对

当年追刘德华追到家破人亡,如今她47岁独居未婚,王晶说得真对

手工制作阿歼
2025-11-09 12:56:40
比抗议一万次都要管用!薛剑重提“敌国条款”,击中日本“命门”

比抗议一万次都要管用!薛剑重提“敌国条款”,击中日本“命门”

墨兰史书
2025-11-14 05:25:03
狗咬人引发命案律师透露新进展:狗主人的妹夫重伤,属于正当防卫

狗咬人引发命案律师透露新进展:狗主人的妹夫重伤,属于正当防卫

汉史趣闻
2025-11-13 15:26:25
王中磊破产,携全家搬出庄园住进别墅,老婆愁眉苦脸被迫接受降级

王中磊破产,携全家搬出庄园住进别墅,老婆愁眉苦脸被迫接受降级

不写散文诗
2025-11-13 14:08:21
歌手阿珍在工作过程中,因电动座椅架挤压身亡

歌手阿珍在工作过程中,因电动座椅架挤压身亡

鲁中晨报
2025-11-13 17:19:01
炸裂!北大科学家宣布,男性多生子女能降低死亡风险,网友炸了

炸裂!北大科学家宣布,男性多生子女能降低死亡风险,网友炸了

吃瓜盟主
2025-11-13 20:46:03
提前谢幕 C罗踢完最后1场世预赛 2重击:无缘世界杯首轮+主场告别

提前谢幕 C罗踢完最后1场世预赛 2重击:无缘世界杯首轮+主场告别

风过乡
2025-11-14 06:29:29
官方:大谷翔平连续第3年当选美国职棒大联盟MVP,5年来第4次

官方:大谷翔平连续第3年当选美国职棒大联盟MVP,5年来第4次

懂球帝
2025-11-14 09:04:29
高市早苗拒不撤回!中方突然改口,刚发出最后通牒,日敢插手就打

高市早苗拒不撤回!中方突然改口,刚发出最后通牒,日敢插手就打

近史博览
2025-11-13 19:54:23
1000多万枚未兑换出去,多地延迟兑换时间,80周年纪念币何去何从

1000多万枚未兑换出去,多地延迟兑换时间,80周年纪念币何去何从

方寸年华
2025-11-13 08:00:17
刚刚!阿里,突发!直线爆拉!

刚刚!阿里,突发!直线爆拉!

中国基金报
2025-11-13 16:04:05
广东省传记文学学会副秘书长林峰突发疾病逝世,年仅41岁

广东省传记文学学会副秘书长林峰突发疾病逝世,年仅41岁

澎湃新闻
2025-11-13 14:24:26
2025-11-14 10:59:00
人人都是产品经理社区 incentive-icons
人人都是产品经理社区
想要成为大牛先从学做产品开始
64096文章数 311503关注度
往期回顾 全部

科技要闻

火箭成功回收 贝索斯终于追上马斯克一小步

头条要闻

牛弹琴:中国的愤怒在升级 中方官员措辞火药味很浓

头条要闻

牛弹琴:中国的愤怒在升级 中方官员措辞火药味很浓

体育要闻

跟豪门传了十年绯闻,他却偏要“择一队终老”

娱乐要闻

《国色天香》编剧发长文质疑古二?

财经要闻

涉及房价投资!国新办介绍10月经济运行

汽车要闻

BJ40增程元境智行版上市 限时焕新价19.48万元

态度原创

教育
时尚
旅游
家居
军事航空

教育要闻

特朗普罕见为中国留学生辩护!这背后究竟安的什么心?

别这样P图了,真的好假!

旅游要闻

“双红”交织绘就文旅新图景

家居要闻

莫奈时间 重构先锋概念

军事要闻

美军多海域再现“航母真空”

无障碍浏览 进入关怀版