X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习|调用|算法|深度思考模型

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

2025-10-22 18:24:00　来源: 机器之心Pro

北京举报

分享至

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。

GRPO 的核心思路很简单却强大：

对同一个问题，同时生成多条解答路径（rollout）
给这些路径打分，比较组内优劣
再根据优势信号来更新模型参数，让模型越来越偏好高质量解法

这种「多路径并行 + 组内优势」的机制，虽然比传统 PPO 等方法更加简洁，但仍然需要优化模型参数，太贵了！

在 32B 量级的模型上训练一次 RL，就可能要花掉上万美元
如果是 600B 级别的超大模型，成本和工程难度更是上天

这让 GRPO 虽然强大，却几乎只能由巨头来玩，中小团队和个人开发者根本「玩不起」。

能不能不改模型参数，也来跑一遍 GRPO？

腾讯优图的一篇最新论文就提出了一个非常有意思的答案：既然更新参数这么贵，那就不更新参数，直接把 GRPO 的「学习过程」搬进上下文空间！

论文标题：Training-Free Group Relative Policy Optimization
arXiv 链接：
https://arxiv.org/abs/2510.08191
GitHub 地址：
https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO

Training-Free GRPO 是把 GRPO 训练的整个范式迁移到了上下文学习之中：

训练集上多轮迭代学习，然后在独立的测试集上验证
每轮中，对同一道题目并行生成多条解答（Rollout）
对比组内不同解法的差异，提取文本型组内优势（Semantic Group Advantage），对齐 GRPO 里的数值型组内优势
根据这些文本优势优化一个文本型 LoRA，对齐 GRPO 里的参数型 LoRA

举个例子，对于训练集里这道数学几何题，模型会生成多个不同的解答路径（Rollout），可能会出现不同的解题路径，有的做对了有的做错了。

随后，模型总结不同解法的过程与正确性，从而比较同一组内的不同解答。这个过程自然提炼出文本型组内优势：总结出有的做法为什么对，有的做法为什么错。比如例子里：

错误的解法不仅设错方向，还没有做条件约束检查
成功的解法则正确了设定坐标方向，也系统化验证了所有条件

在一个迭代里，得到每道题的文本型组内优势后，模型就把当前批次的优势都更新文本型 LoRA 里，也就是对经验库进行增删改，沉淀学习到的经验。

实验效果

在数学推理上，仅用100 个训练样本，花费约 8-18 美元，就能在已经足够强大的 671B 模型上继续提升性能。

无论是否采用代码工具（CI，code interpreter）帮助解题，在 AIME 榜单上的 Mean@32 指标都能实现提升。

令人惊喜的是，在三个轮次中，训练集和测试集的平均工具调用次数均有所减少。这表明 Training-Free GRPO 不仅能够鼓励正确的推理和行动，还能教会代理找捷径，更高效明智地使用工具。

而在网页搜索场景中，Training-Free GRPO 同样无需更新模型参数，即可在 DeepSeek-V3.1-Terminus 强悍水平之上，实现了 4.6% 的 Pass@1 显著提升。

为什么需要 Training-Free GRPO？

保留 GRPO 的强化学习优势

多路径探索、group advantage、多轮迭代、完全独立的训练与测试集……这些 GRPO 的精华一项不少，全部在上下文层面重现了出来。

成本暴降

不用训练模型参数，仅需少量数据，并且全程只靠 API 随用随付！

只需 8～18 美元以及 100 条训练数据，就能在 671B LLM 上跑完多轮的强化学习训练！远远低于 32B 模型的训练成本。

泛化更好

与 Self-Refine 这类就地改写不同，Training-Free GRPO 是在独立数据集上多轮迭代训练的，对测试集里的 Out-of-Domain (OOD) 数据都有显著提升。

并且，参数微调后的 32B 级别模型往往只能胜任特定窄域任务，可能需要多个专用模型来覆盖完整业务需求，显著增加了系统复杂度和维护成本。而 Training-Free GRPO 只需要一个统一的模型和 API 就可以泛化到不同的场景！

小结：RL 不一定非得有梯度

过去我们默认，强化学习就意味着参数更新。虽然前期有一些上下文空间优化的探索如 Self-Refine、Reflexion、TextGrad 等，但 Training-Free GRPO 与他们不同，完全对齐了参数空间 RL 训练的流程和细节：

把 GRPO 的「独立训练集 + 多轮迭代 + 并行 Rollout + 组内优势」这套 RL 训练范式，整体迁移到上下文空间，在不训练模型的情况下，也能获得强化学习效果。
这让超大模型的 RL 优化变得廉价、灵活、可持续，也给每个开发者的小业务提供了用得起的新方案。

本文方法已开源，欢迎 Star 和试用！

预告：Training-Free GRPO 将作为一个新功能集成到 Youtu-Agent 框架中，帮助开发者们进一步提升各种自定义场景的效果。

注：成本计算基于 DeepSeek API 官方定价，实际可能因使用情况而有所波动。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

两年联姻一地鸡毛，传苹果OpenAI濒临决裂

女游客以1分钱拍下标价1980元的三亚海景房 酒店回应

女游客以1分钱拍下标价1980元的三亚海景房 酒店回应

德约科维奇买的球队，从第6级联赛升入法甲

方媛为何要来《桃花坞6》没苦硬吃？

特朗普的北京时刻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

海南楼市新政要出！拟调公积金贷款额度，最高可贷168万！

用苏绣的方式，打开江西婺源

史上最低价！iPhone 17 Pro系列京东天猫大促，全系优惠拉满

天坛最佳拍照机位火了！本台记者率先发现→

乌克兰首都基辅遭空袭 死亡人数增至12人

女游客以1分钱拍下标价1980元的三亚海景房酒店回应

女游客以1分钱拍下标价1980元的三亚海景房酒店回应

双零重力座椅/AI智能体/调光天幕启境GT7内饰发布

乌克兰首都基辅遭空袭死亡人数增至12人