网易首页 > 网易号 > 正文 申请入驻

X上63万人围观的Traning-Free GRPO:把GRPO搬进上下文空间学习

0
分享至



年初的 DeepSeek-R1,带来了大模型强化学习(RL)的火爆。无论是数学推理、工具调用,还是多智能体协作,GRPO(Group Relative Policy Optimization)都成了最常见的 RL 算法。

GRPO 的核心思路很简单却强大:

  • 对同一个问题,同时生成多条解答路径(rollout)
  • 给这些路径打分,比较组内优劣
  • 再根据优势信号来更新模型参数,让模型越来越偏好高质量解法

这种「多路径并行 + 组内优势」的机制,虽然比传统 PPO 等方法更加简洁,但仍然需要优化模型参数, 太贵了!

  • 在 32B 量级的模型上训练一次 RL,就可能要花掉上万美元
  • 如果是 600B 级别的超大模型,成本和工程难度更是上天

这让 GRPO 虽然强大,却几乎只能由巨头来玩,中小团队和个人开发者根本「玩不起」。

能不能不改模型参数,也来跑一遍 GRPO?

腾讯优图的一篇最新论文就提出了一个非常有意思的答案:既然更新参数这么贵,那就不更新参数,直接把 GRPO 的「学习过程」搬进上下文空间!



  • 论文标题:Training-Free Group Relative Policy Optimization
  • arXiv 链接:
  • https://arxiv.org/abs/2510.08191
  • GitHub 地址:
  • https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO

Training-Free GRPO 是把 GRPO 训练的整个范式迁移到了上下文学习之中:



  • 训练集上多轮迭代学习,然后在独立的测试集上验证
  • 每轮中,对同一道题目并行生成多条解答(Rollout)
  • 对比组内不同解法的差异,提取文本型组内优势(Semantic Group Advantage),对齐 GRPO 里的数值型组内优势
  • 根据这些文本优势优化一个文本型 LoRA,对齐 GRPO 里的参数型 LoRA

举个例子,对于训练集里这道数学几何题,模型会生成多个不同的解答路径(Rollout),可能会出现不同的解题路径,有的做对了有的做错了。



随后,模型总结不同解法的过程与正确性,从而比较同一组内的不同解答。这个过程自然提炼出文本型组内优势:总结出有的做法为什么对,有的做法为什么错。比如例子里:

  • 错误的解法不仅设错方向,还没有做条件约束检查
  • 成功的解法则正确了设定坐标方向,也系统化验证了所有条件

在一个迭代里,得到每道题的文本型组内优势后,模型就把当前批次的优势都更新文本型 LoRA 里,也就是对经验库进行增删改,沉淀学习到的经验。

实验效果

在数学推理上,仅用100 个训练样本,花费约 8-18 美元,就能在已经足够强大的 671B 模型上继续提升性能。

无论是否采用代码工具(CI,code interpreter)帮助解题,在 AIME 榜单上的 Mean@32 指标都能实现提升。



令人惊喜的是,在三个轮次中,训练集和测试集的平均工具调用次数均有所减少。这表明 Training-Free GRPO 不仅能够鼓励正确的推理和行动,还能教会代理找捷径,更高效明智地使用工具。



而在网页搜索场景中,Training-Free GRPO 同样无需更新模型参数,即可在 DeepSeek-V3.1-Terminus 强悍水平之上,实现了 4.6% 的 Pass@1 显著提升。



为什么需要 Training-Free GRPO?


  • 保留 GRPO 的强化学习优势

多路径探索、group advantage、多轮迭代、完全独立的训练与测试集……这些 GRPO 的精华一项不少,全部在上下文层面重现了出来。

  • 成本暴降

不用训练模型参数,仅需少量数据,并且全程只靠 API 随用随付!



只需 8~18 美元以及 100 条训练数据,就能在 671B LLM 上跑完多轮的强化学习训练!远远低于 32B 模型的训练成本。

  • 泛化更好

与 Self-Refine 这类就地改写不同,Training-Free GRPO 是在独立数据集上多轮迭代训练的,对测试集里的 Out-of-Domain (OOD) 数据都有显著提升。

并且,参数微调后的 32B 级别模型往往只能胜任特定窄域任务,可能需要多个专用模型来覆盖完整业务需求,显著增加了系统复杂度和维护成本。而 Training-Free GRPO 只需要一个统一的模型和 API 就可以泛化到不同的场景!

小结:RL 不一定非得有梯度

过去我们默认,强化学习就意味着参数更新。虽然前期有一些上下文空间优化的探索如 Self-Refine、Reflexion、TextGrad 等,但 Training-Free GRPO 与他们不同,完全对齐了参数空间 RL 训练的流程和细节:

  • 把 GRPO 的「独立训练集 + 多轮迭代 + 并行 Rollout + 组内优势」这套 RL 训练范式,整体迁移到上下文空间,在不训练模型的情况下,也能获得强化学习效果。
  • 这让超大模型的 RL 优化变得廉价、灵活、可持续,也给每个开发者的小业务提供了用得起的新方案。

本文方法已开源,欢迎 Star 和试用!

预告:Training-Free GRPO 将作为一个新功能集成到 Youtu-Agent 框架中,帮助开发者们进一步提升各种自定义场景的效果。

注:成本计算基于 DeepSeek API 官方定价,实际可能因使用情况而有所波动。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
原来有这么多不体面但挣钱的小生意!原来都是闷声发大财啊!

原来有这么多不体面但挣钱的小生意!原来都是闷声发大财啊!

另子维爱读史
2025-12-06 22:09:07
娜扎透视裙惊艳全网!这身材这颜值,谁能顶得住?

娜扎透视裙惊艳全网!这身材这颜值,谁能顶得住?

娱乐领航家
2026-02-03 23:30:03
辽宁教师乱象风波:整顿引发网络风暴,真相几何?

辽宁教师乱象风波:整顿引发网络风暴,真相几何?

文雅笔墨
2026-02-06 16:10:21
做个小笨蛋挺好的

做个小笨蛋挺好的

疾跑的小蜗牛
2026-02-05 23:32:07
《夜色正浓》37岁男配太抢镜,佟大为黯然失色

《夜色正浓》37岁男配太抢镜,佟大为黯然失色

深层奥秘
2026-02-06 21:05:46
布鲁克林与豪门爱妻计划收养孩子,组完美家庭,遮父母纹身拒和解

布鲁克林与豪门爱妻计划收养孩子,组完美家庭,遮父母纹身拒和解

译言
2026-02-07 05:09:47
回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

就一点
2025-10-09 12:19:42
比特币跌破6万美元大关!本周暴跌25%,4个月价格“腰斩”

比特币跌破6万美元大关!本周暴跌25%,4个月价格“腰斩”

读创
2026-02-06 11:46:05
亚洲第一美男,果真帅气,比公认的帅哥三浦友和都要好看

亚洲第一美男,果真帅气,比公认的帅哥三浦友和都要好看

东方不败然多多
2026-02-06 20:06:08
香港富二代出席新春团拜会,李泽钜罕露脸,霍震寰霍启山叔侄同场

香港富二代出席新春团拜会,李泽钜罕露脸,霍震寰霍启山叔侄同场

地理三体说
2026-02-06 21:51:56
湖北开放大学党委副书记、校长陈志祥被查

湖北开放大学党委副书记、校长陈志祥被查

新京报
2026-02-06 16:45:15
不要再随意猜测杨兰兰的身份了,释放的信号很明显了

不要再随意猜测杨兰兰的身份了,释放的信号很明显了

李昕言温度空间
2025-08-20 15:01:53
1995年,在北京蜗居13年的吴德病逝,留下三行遗嘱令人落泪

1995年,在北京蜗居13年的吴德病逝,留下三行遗嘱令人落泪

浔阳咸鱼
2026-02-06 07:45:08
海口一小区内发生致3死1伤刑事案件,警方:嫌犯畏罪自杀身亡

海口一小区内发生致3死1伤刑事案件,警方:嫌犯畏罪自杀身亡

澎湃新闻
2026-02-07 00:24:07
亚洲杯淘汰赛:向鹏、张本智和同区;王艺迪对阵王曼昱

亚洲杯淘汰赛:向鹏、张本智和同区;王艺迪对阵王曼昱

懂球帝
2026-02-06 22:24:06
江苏女子“摇号”遇到“888”豹子号,价值数百万,犹豫几秒竟选择放弃,车管所:你这人很聪明!

江苏女子“摇号”遇到“888”豹子号,价值数百万,犹豫几秒竟选择放弃,车管所:你这人很聪明!

谭老师地理大课堂
2026-02-05 21:04:50
如果“武统”,解放台湾要多久?解放军中将:六战一体,最多三天

如果“武统”,解放台湾要多久?解放军中将:六战一体,最多三天

混沌录
2026-02-01 15:14:10
网友称四川自贡一街道现“红绿灯刺客”,红灯笼遮挡信号灯致误闯,当地交警回应:将迅速核实

网友称四川自贡一街道现“红绿灯刺客”,红灯笼遮挡信号灯致误闯,当地交警回应:将迅速核实

大风新闻
2026-02-06 17:21:05
家长举报家委会3年收10多万元班费,“一刀切”禁教辅就是给家长增负

家长举报家委会3年收10多万元班费,“一刀切”禁教辅就是给家长增负

极目新闻
2026-02-06 11:37:19
“除夕三不摆,来年不惹灾”,这3样水果别上桌,易闹笑话坏彩头

“除夕三不摆,来年不惹灾”,这3样水果别上桌,易闹笑话坏彩头

秀厨娘
2026-02-06 19:20:19
2026-02-07 05:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12265文章数 142564关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

房产
数码
时尚
本地
军事航空

房产要闻

新春三亚置业,看过这个热盘再说!

数码要闻

零刻SER10 Max迷你主机上市:AI 9 HX 470,0+0款4499元

豆瓣8.5分,人美剧甜衣品好,小韩拍恋爱剧还是有两把刷子

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

军事要闻

美国“肯尼迪”号核动力航母完成首次海试

无障碍浏览 进入关怀版