8美元即可对DS V3.2做强化学习？腾讯优图提出Training-Free GRPO|grpo|知名企业|training

8美元即可对DS V3.2做强化学习？腾讯优图提出Training-Free GRPO

分享至

在强化学习日益成为大模型性能突破关键的背景下，腾讯优图提出了一种“免训练”的GRPO方法，引发了关于成本、效率与创新路径的深层讨论。本文聚焦DeepSeek-V3.2的强化策略，剖析其背后的技术逻辑与行业意义，为AI研发者和产品经理提供一线洞察。

大模型虽强，但在专业领域表现往往不尽如人意。常见的解决方案是通过监督微调或者强化学习更新模型参数，但这背后是高昂的代价与新的局限：

算力黑洞：单次训练动辄消耗数万美元，每一次迭代都是真金白银的投入
泛化困境：通过参数微调优化的模型，往往泛化性不佳，只能胜任特定窄域任务。这导致企业不得不部署多个专用模型来覆盖完整业务需求，显著增加了系统复杂度和维护成本
数据稀缺：需要大量高质量标注数据。

针对上述挑战，腾讯优图实验室提出Training-Free GRPO方法，这种方法的核心思想是：不修改模型参数，而是通过反复积累和迭代“经验知识”来指导模型行为。Training-Free GRPO的提出，将强化学习在超大规模LLM及复杂Agent系统上的训练成为可能，启动了低成本、高效率的强化学习新时代。从此，强化学习不再是巨头的专属游戏，每个开发者的小业务都能用得起、用得好。

论文标题：Training-Free Group Relative Policy Optimization

论文链接：https://arxiv.org/pdf/2510.08191

项目主页：GitHub – TencentCloudADP/youtu-agent at training_free_GRPO

01 方法

如图2所示，传统GRPO需要更新模型参数，而Training-Free GRPO冻结了模型参数，通过多轮强化学习不断更新优化经验库，在推理时注入学习到的经验知识，实现了零参数更新的强化学习效果。

第一步：多路径探索（Rollout）

如图3左侧所示，对于每个问题，模型会生成多个不同的解答路径。就像让学生用不同方法解同一道题，能够观察各种可能的解题思路。比如在数学题中，有的路径可能选择复杂的坐标几何法，有的可能发现更巧妙的几何性质法。这种多路径探索帮助我们发现最优策略。

第二步：强化学习奖励（Reward）

奖励只需提供少量样本及其参考答案，提供一个优化的方向即可。每个生成的解答都会获得一个客观评分。这个评分可以是：（1）与标准答案的匹配度；（2）代码执行结果的正确性；（3）网页搜索任务的成功率。

第三步：语义优势提炼（Group Advantage）

如图3右侧所示，模型会自我反思：比较同一组内的不同解答，总结出：“为什么A方法得分高？B方法哪里出错了？”。比如在案例中，模型发现：

成功路径：正确设定坐标方向，系统化验证所有条件
失败路径：方向设定错误，缺乏完整性检查

这种语义层面的洞察比单纯的数值评分更有指导意义。

第四步：经验库优化（Optimization）

基于提炼出的语义优势，模型会动态更新经验知识库：

新增经验：添加被验证有效的解题策略
修正经验：完善现有指导原则
删除经验：淘汰被证明无效的方法

整个过程就像一位学生在不断更新学习笔记，积累沉淀学到的经验

02 评估

在数学推理上，仅用100个训练样本，花费约8-18美元，就能在已经足够强大的671B模型上继续提升性能。如表1所示，无论是否采用代码工具（CI，code interpreter）帮助解题，在AIME榜单上的Mean@32指标都能实现提升。

训练仅需要三个轮次，图4左侧子图中训练集Reward指标（橙色）和样本外AIME榜单上Mean@32指标（绿色和蓝色）都在稳步提升。右侧子图展现了训练中和样本外的平均工具调用次数均有所减少。这表明Training-Free GRPO 不仅能够鼓励正确的推理和行动，还能教会智能体找捷径，更高效明智地使用工具。

表4所示的网页搜索场景中，Training-Free GRPO同样无需更新模型参数，即可在DeepSeek-V3.1-Terminus强悍水平之上，实现了4.6%的Pass@1显著提升。

与传统强化学习（RL）方法相比，Training-Free GRPO实现了训练成本的数量级降低：

传统RL训练：约10,000美元（训练32B模型如Retool，400个step需要2万A100卡时）
Training-Free GRPO：约8～18美元（优化DeepSeek-V3.1或V3.2的671B模型）

同时，对于大多数非密集调用型的实际应用，专门准备GPU提供训练好的32B模型推理服务也带来一定的固定成本。而Training-Free GRPO无论训练和推理都仅需API，随用随付！

这种方法特别适合：

长尾细分场景适配：有一定价值，但无法支撑大规模训练和部署
快速迭代场景：需要频繁更新的大模型应用
预算有限团队：个人开发者，中小企业和研究机构

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.