网易首页 > 网易号 > 正文 申请入驻

X上63万人围观的Traning-Free GRPO:把GRPO搬进上下文空间学习

0
分享至

年初的 DeepSeek-R1,带来了大模型强化学习(RL)的火爆。无论是数学推理、工具调用,还是多智能体协作,GRPO(Group Relative Policy Optimization)都成了最常见的 RL 算法。

GRPO 的核心思路很简单却强大:

  • 对同一个问题,同时生成多条解答路径(rollout)
  • 给这些路径打分,比较组内优劣
  • 再根据优势信号来更新模型参数,让模型越来越偏好高质量解法

这种「多路径并行 + 组内优势」的机制,虽然比传统 PPO 等方法更加简洁,但仍然需要优化模型参数, 太贵了!

  • 在 32B 量级的模型上训练一次 RL,就可能要花掉上万美元
  • 如果是 600B 级别的超大模型,成本和工程难度更是上天

这让 GRPO 虽然强大,却几乎只能由巨头来玩,中小团队和个人开发者根本「玩不起」。

能不能不改模型参数,也来跑一遍 GRPO?

腾讯优图的一篇最新论文就提出了一个非常有意思的答案:既然更新参数这么贵,那就不更新参数,直接把 GRPO 的「学习过程」搬进上下文空间!

  • 论文标题:Training-Free Group Relative Policy Optimization
  • arXiv 链接:
  • https://arxiv.org/abs/2510.08191
  • GitHub 地址:
  • https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO

Training-Free GRPO 是把 GRPO 训练的整个范式迁移到了上下文学习之中:

  • 训练集上多轮迭代学习,然后在独立的测试集上验证
  • 每轮中,对同一道题目并行生成多条解答(Rollout)
  • 对比组内不同解法的差异,提取文本型组内优势(Semantic Group Advantage),对齐 GRPO 里的数值型组内优势
  • 根据这些文本优势优化一个文本型 LoRA,对齐 GRPO 里的参数型 LoRA

举个例子,对于训练集里这道数学几何题,模型会生成多个不同的解答路径(Rollout),可能会出现不同的解题路径,有的做对了有的做错了。

随后,模型总结不同解法的过程与正确性,从而比较同一组内的不同解答。这个过程自然提炼出文本型组内优势:总结出有的做法为什么对,有的做法为什么错。比如例子里:

  • 错误的解法不仅设错方向,还没有做条件约束检查
  • 成功的解法则正确了设定坐标方向,也系统化验证了所有条件

在一个迭代里,得到每道题的文本型组内优势后,模型就把当前批次的优势都更新文本型 LoRA 里,也就是对经验库进行增删改,沉淀学习到的经验。

实验效果

在数学推理上,仅用100 个训练样本,花费约 8-18 美元,就能在已经足够强大的 671B 模型上继续提升性能。

无论是否采用代码工具(CI,code interpreter)帮助解题,在 AIME 榜单上的 Mean@32 指标都能实现提升。

令人惊喜的是,在三个轮次中,训练集和测试集的平均工具调用次数均有所减少。这表明 Training-Free GRPO 不仅能够鼓励正确的推理和行动,还能教会代理找捷径,更高效明智地使用工具。

而在网页搜索场景中,Training-Free GRPO 同样无需更新模型参数,即可在 DeepSeek-V3.1-Terminus 强悍水平之上,实现了 4.6% 的 Pass@1 显著提升。

为什么需要 Training-Free GRPO?


  • 保留 GRPO 的强化学习优势

多路径探索、group advantage、多轮迭代、完全独立的训练与测试集……这些 GRPO 的精华一项不少,全部在上下文层面重现了出来。

  • 成本暴降

不用训练模型参数,仅需少量数据,并且全程只靠 API 随用随付!

只需 8~18 美元以及 100 条训练数据,就能在 671B LLM 上跑完多轮的强化学习训练!远远低于 32B 模型的训练成本。

  • 泛化更好

与 Self-Refine 这类就地改写不同,Training-Free GRPO 是在独立数据集上多轮迭代训练的,对测试集里的 Out-of-Domain (OOD) 数据都有显著提升。

并且,参数微调后的 32B 级别模型往往只能胜任特定窄域任务,可能需要多个专用模型来覆盖完整业务需求,显著增加了系统复杂度和维护成本。而 Training-Free GRPO 只需要一个统一的模型和 API 就可以泛化到不同的场景!

小结:RL 不一定非得有梯度

过去我们默认,强化学习就意味着参数更新。虽然前期有一些上下文空间优化的探索如 Self-Refine、Reflexion、TextGrad 等,但 Training-Free GRPO 与他们不同,完全对齐了参数空间 RL 训练的流程和细节:

  • 把 GRPO 的「独立训练集 + 多轮迭代 + 并行 Rollout + 组内优势」这套 RL 训练范式,整体迁移到上下文空间,在不训练模型的情况下,也能获得强化学习效果。
  • 这让超大模型的 RL 优化变得廉价、灵活、可持续,也给每个开发者的小业务提供了用得起的新方案。

本文方法已开源,欢迎 Star 和试用!

预告:Training-Free GRPO 将作为一个新功能集成到 Youtu-Agent 框架中,帮助开发者们进一步提升各种自定义场景的效果。

注:成本计算基于 DeepSeek API 官方定价,实际可能因使用情况而有所波动。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
快讯!西方精英高层没喝茅台,喝的竟然是它!

快讯!西方精英高层没喝茅台,喝的竟然是它!

达文西看世界
2026-05-15 10:51:53
支付宝回应184万元莫名被扣:涉事账户存与他人共用嫌疑,不排除涉嫌违法犯罪可能

支付宝回应184万元莫名被扣:涉事账户存与他人共用嫌疑,不排除涉嫌违法犯罪可能

北京商报
2026-05-15 09:45:04
不相为谋!杨元庆出席国宴,全场都没有找到与马斯克的合影

不相为谋!杨元庆出席国宴,全场都没有找到与马斯克的合影

阿龙聊军事
2026-05-15 11:16:03
别再只盯分数!教育部长最新讲话:未来10年这种孩子才不会被淘汰

别再只盯分数!教育部长最新讲话:未来10年这种孩子才不会被淘汰

教师吧
2026-05-12 16:57:26
黄仁勋逛南锣鼓巷,手拿蜜雪冰城、还喝豆汁

黄仁勋逛南锣鼓巷,手拿蜜雪冰城、还喝豆汁

鞭牛士
2026-05-15 14:37:05
央视或已获得2026年世界杯版权

央视或已获得2026年世界杯版权

五星体育
2026-05-15 14:23:51
马斯克深夜用中文发帖,全世界都懵了!外媒他到底想干什么?

马斯克深夜用中文发帖,全世界都懵了!外媒他到底想干什么?

侃故事的阿庆
2026-05-15 10:22:08
马斯克儿子穿的新中式马甲“杏林春燕”售价1880元,虎头包是“广西制造”

马斯克儿子穿的新中式马甲“杏林春燕”售价1880元,虎头包是“广西制造”

格隆汇APP
2026-05-14 23:38:14
中国球迷可以在家看世界杯了!中央广播电视总台已获2026年美加墨世界杯版权

中国球迷可以在家看世界杯了!中央广播电视总台已获2026年美加墨世界杯版权

扬子晚报
2026-05-15 14:52:38
一张照片刷屏了,坐在马斯克和库克中间的中国女人,凭啥这么牛?

一张照片刷屏了,坐在马斯克和库克中间的中国女人,凭啥这么牛?

小陆搞笑日常
2026-05-15 11:44:30
招牌职业队中甲垫底,青训人才大量流失,“中国足球之乡”梅州究竟怎么了?

招牌职业队中甲垫底,青训人才大量流失,“中国足球之乡”梅州究竟怎么了?

文汇报
2026-05-15 04:30:13
苹果官宣降价:iPhone 17 Pro系列全线下调1000元

苹果官宣降价:iPhone 17 Pro系列全线下调1000元

极目新闻
2026-05-15 00:52:56
为190元榴莲“仅退款”千里讨公道,商家“程大叔”公布行政处罚结果:女子伪造变霉图片被行拘7日;对于是否提起诉讼,要看对方的认错态度

为190元榴莲“仅退款”千里讨公道,商家“程大叔”公布行政处罚结果:女子伪造变霉图片被行拘7日;对于是否提起诉讼,要看对方的认错态度

大风新闻
2026-05-15 13:32:13
重磅!720万!那老詹就不留在湖人了...

重磅!720万!那老詹就不留在湖人了...

左右为篮
2026-05-15 12:34:54
中美元首是否讨论人工智能合作?外交部回应

中美元首是否讨论人工智能合作?外交部回应

澎湃新闻
2026-05-15 15:30:33
在欢迎晚宴上,特朗普罕见破例了!

在欢迎晚宴上,特朗普罕见破例了!

仕道
2026-05-15 13:26:03
唏嘘!日本3大旅欧名将无缘世界杯 三笘薫梦碎:开赛1个月前重伤

唏嘘!日本3大旅欧名将无缘世界杯 三笘薫梦碎:开赛1个月前重伤

我爱英超
2026-05-15 13:50:18
海豹突击队的2分钟入睡法,失眠的人该试试了

海豹突击队的2分钟入睡法,失眠的人该试试了

晚风也遗憾
2026-05-14 07:48:01
现在卖衣服的女孩子都开始擦边了…

现在卖衣服的女孩子都开始擦边了…

微微热评
2026-05-15 12:03:59
特朗普称中方同意购买200架波音飞机,外交部:中美经贸关系本质是互利共赢

特朗普称中方同意购买200架波音飞机,外交部:中美经贸关系本质是互利共赢

澎湃新闻
2026-05-15 15:30:35
2026-05-15 16:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13003文章数 142649关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

女游客以1分钱拍下标价1980元的三亚海景房 酒店回应

头条要闻

女游客以1分钱拍下标价1980元的三亚海景房 酒店回应

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

特朗普的北京时刻

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

房产
本地
手机
旅游
军事航空

房产要闻

海南楼市新政要出!拟调公积金贷款额度,最高可贷168万!

本地新闻

用苏绣的方式,打开江西婺源

手机要闻

史上最低价!iPhone 17 Pro系列京东天猫大促,全系优惠拉满

旅游要闻

天坛最佳拍照机位火了!本台记者率先发现→

军事要闻

乌克兰首都基辅遭空袭 死亡人数增至12人

无障碍浏览 进入关怀版