网易首页 > 网易号 > 正文 申请入驻

快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了

0
分享至

来源:市场资讯

(来源:机器之心)

本研究由快手科技语言大模型团队完成,核心作者吕民轩、梅铁桦、杜坦隆等。快手科技与中国科学院大学联合提出 GoLongRL,一套完全开源的长上下文强化学习后训练方案,包含 23K 样本 RLVR 数据集、完整训练代码,以及针对异构多任务的新算法 TMN-Reweight。


  • 论文标题:GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

  • 论文链接:https://huggingface.co/papers/2605.19577

  • GitHub:https://github.com/xiaoxuanNLP/GoLongRL


图 1:GoLongRL-30B-A3B 与各顶级模型的长上下文综合评测对比

为什么现有的长上下文 RL 方法不够好?

当前主流的长上下文 RL 方法(LoongRL、LongRLVR、QwenLong-L1.5 等)有两个共同问题:训练数据基本围绕 “在更长文本里找更难找的答案” 这条路走,任务覆盖高度同质;奖励设计被压缩为单一的精确匹配或准确率,排序、摘要、穷举检索这些能力几乎没有直接监督。

数据:以能力为导向

三大设计原则

GoLongRL 的数据构造遵循三大原则:能力导向、奖励与任务语义对齐、真实文档优先。

能力导向。参考 LongBench Pro 提出的能力分类体系,定义了 9 种核心任务类型,覆盖长上下文理解所需的关键能力维度。T1-T4 构成训练主干(占比超过 90%),覆盖基础长上下文能力;T6-T9 的样本量相对较少(合计不足 4%),但每种任务都保留了其最自然的奖励形式,确保完整的能力覆盖。

这 9 大任务类型及其对应的能力维度如下:


表 1:GoLongRL 数据集能力类型及其对应奖励

奖励与任务语义对齐。长上下文任务在评估维度上差异显著:摘要依赖 ROUGE,排序依赖 NDCG,抽取依赖 F1,将其统一压缩为单一指标会损失大量任务特有的语义信息。GoLongRL 为每类任务单独配置最契合其目标的评估指标作为奖励函数,使 RL 训练中的反馈信号与任务本身的评估逻辑保持一致。

真实文档优先。基于模板的合成数据存在一个结构性风险:当多段短文档被拼接为长输入时,段落边界与格式标记本身携带了可被利用的位置信息,模型容易习得依赖这类浅层线索作答的捷径,而非形成真正的跨段落理解能力。因此 GoLongRL 以书籍、学术论文、法律文书和财务报告等真实文档为主要训练来源。对于标注稀缺的领域,仅在真实文档上合成问答对,而非生成文档本身。


图 2:训练数据的 UMAP 投影

数据来源:开源策略与合成策略并行

数据集的 22,965 个样本来自两个互补的池子:

  • 约 14K 开源样本:从 CLongEval、LongBench Pro、MultiTableQA、CAIL2018 等已开源的长上下文语料库中改写,这些样本已有人工验证的标注,覆盖法律案例、财务报告、文学小说和多轮对话等多个领域。

  • 约 9K 合成样本:问答对由真实源文档生成,源文档包括 Project Gutenberg 图书、arXiv CC0 等自然长文素材。合成的是问答对本身,而非文档。

四阶段构造 pipeline


图 3:GoLongRL 数据构造四阶段 pipeline

整个数据集通过统一的四阶段流水线生产:

  • P1 源语料收集:按 9 类任务分别收集有标注的开源数据集和无标注真实文档,尽量覆盖不同领域、文档结构和长度区间。

  • P2 任务过滤与分配:对每个样本按任务语义分配唯一标签。比如 CLongEval 里定位单一事实的样本归 T1,CAIL2018 里需要聚合多条法律条款的归 T3,对话记忆子类(T2)只保留超过 50 轮、30K Token 以上的对话。

  • P3 样本构造:开源数据做兼容性过滤和奖励格式标准化(如把数值答案改写为 math_verify 可解析格式)。合成数据按文档长度分桶,普通长度用 DeepSeek-V3.2 生成问答对,超长文档交给 Gemini-2.5-Pro;生成后经两阶段质量过滤 —— 先由 Gemini-2.5-Pro 验证答案唯一性和无幻觉,再用 Qwen3-4B 和 Qwen3-30B-A3B 的多级通过率测试剔除标签噪声。

  • P4 迭代精化:先做 13-gram 重叠过滤防数据污染,再训练并做基准诊断。某维度停滞就排查奖励作弊、答案歧义等问题并清除;信号不足就回到 P1–P3 定向补数据,循环至性能和质量稳定。

TMN-Reweight:面向异构多任务的优化算法

能力导向的数据集带来了 9 种不同的奖励函数,它们的数值尺度和方差分布各不相同。在标准 GRPO 框架下进行混合训练时,优化过程面临两个相互纠缠的问题。

  • 问题一:难度导致的优势估计偏差。GRPO 计算优势时会除以组内奖励标准差 ,导致特别难或特别简单的 prompt( 很小)优势值被放大,而中等难度的 prompt(回复有成功有失败, 较大)反而被压缩 —— 而后者恰恰是最具训练价值的样本。

  • 问题二:跨任务奖励尺度不一致。不同任务的评估指标(EM、F1、ROUGE-L 等)产生截然不同的奖励分布。Dr. GRPO 为解决问题一而移除了 ,却使高方差任务(如 F1 检索)产生不成比例的大梯度主导优化,低方差任务(如二值准确率)的学习信号被淹没。

TMN-Reweight 的核心思路

TMN-Reweight 将尺度归一化与难度校正解耦为两个独立步骤。

  • 第一步:任务级均值归一化(TMN)。不再用逐 prompt 的标准差 ,再在同一任务内做均方根聚合,得到所有该任务 prompt 共享的分母

    。这样既保留了任务级的尺度对齐,又在任务内部保留了 prompt 之间原始的难度差异结构,供第二步利用。实验结果印证了这一设计:TMN 将跨任务优势量级的变异系数(CV)从 Dr. GRPO 的 0.54、标准 GRPO 的 0.34 降低到了 0.18。

    做归一化,而是先计算每个 prompt 的组内标准差

  • 第二步:难度自适应重加权。尺度对齐后,再用平滑后的通过率

    ,以四象限非对称方式施加:困难 prompt 的正优势回复被放大(强化稀有的成功探索),负优势回复被缩小(抑制不稳定梯度);简单 prompt 则相反,正优势被压缩以防熵坍缩,负优势被放大以从意外失败中学习。这种 "四象限" 式的梯度重分配,在困难样本上强化探索、在简单样本上维持多样性。

    估计 prompt 难度(将逐 prompt 的平均奖励与任务级基线插值,避免小 batch 下通过率估计方差过大),并计算权重

实验结果

主要结果:4B 模型达到 SOTA

4B 规模上的实验设计使得数据贡献和算法贡献可以独立评估:


表 3:主实验 - 4B

4B 规模:仅凭数据,vanilla GRPO 已比 QwenLong-L1.5(GRPO)高 6.1 分(62.2 vs 56.1),甚至超过其专用算法 AEPO 版本(59.4 分)。加上 TMN-Reweight 进一步提升至 63.0。

主要结果:30B 模型超越顶级旗舰模型


表 4:主实验 - 30B

30B 规模:GoLongRL-30B-A3B 以 69.8 分超越 DeepSeek-R1-0528(68.67)、Qwen3-235B-A22B-Thinking-2507(68.45)和 Gemini-2.5-Flash-Thinking(68.73),也全面超越同等算法(GRPO)训练的 QwenLong-L1.5-30B(67.2)。

通用能力保持与迁移

长上下文 RL 训练没有带来负迁移。通用推理上,4B 和 30B 模型在 MMLU-Pro、AIME24/25、GPQA-Diamond 上均有小幅提升,两个规模的模型趋势一致。

更值得关注的是迁移效果。Agentic Memory 的 Memory-Vec 和 Memory-Rec_Sum 两项任务训练中从未出现过,但 4B 模型 Memory-Rec_Sum 仍提升了 9.7 分,30B 提升 4.5 分。对话记忆(LongMemEval)两个规模均提升 13.6 分(4B: 47.6→61.2;30B: 61.6→75.2),30B 超过 QwenLong-L1.5-30B 的 72.2 分。说明长上下文 RL 学到的信息整合能力能迁移到训练中没见过的任务上。

长度外推能力

GoLongRL 训练上下文为 160K,但能力可以泛化到更长的序列。4B 模型在 MRCR 128K–512K 提升 12.27 分、512K–1M 提升 3.50 分;30B 更明显,MRCR 128K–512K +12.61、512K–1M +5.45,CorpusQA 1M +2.74。160K 训练习得的能力没有被局限在训练长度范围内。

总结

数据覆盖度和奖励多样性是长上下文 RL 的主要瓶颈,而非算法本身。把任务从 "复杂检索路径" 扩展到更全面的能力维度,并为每种任务匹配语义合适的奖励函数,即使较小的模型也能达到与旗舰模型相当的长上下文性能。

数据集、模型和训练与评测代码已完整开源。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
三个人同在一个军,军长是中将,副军长是少将,师长却后来居上

三个人同在一个军,军长是中将,副军长是少将,师长却后来居上

史之铭
2026-06-22 01:08:59
巨亏850亿!曾经的“全球霸主”尼康,只用20年把自己“作死”!

巨亏850亿!曾经的“全球霸主”尼康,只用20年把自己“作死”!

青眼财经
2026-06-11 08:00:20
我在法国被半根面包干趴下那天,才明白中国人对法棍的误会太深了

我在法国被半根面包干趴下那天,才明白中国人对法棍的误会太深了

天下霸奇
2026-06-02 08:34:41
“开家长会怎么办?”另类小情侣被嘲,孩子出生自带“满背”!

“开家长会怎么办?”另类小情侣被嘲,孩子出生自带“满背”!

林林先生
2026-06-21 10:10:03
世界冠军吴鹏近况:39岁发福明显,迎娶美女主持,创业成功不缺钱

世界冠军吴鹏近况:39岁发福明显,迎娶美女主持,创业成功不缺钱

大西体育
2026-06-22 07:01:47
WTT球星赛落幕!日本4冠韩国1金,户上隼辅、早田希娜单打称王

WTT球星赛落幕!日本4冠韩国1金,户上隼辅、早田希娜单打称王

全言作品
2026-06-22 01:55:25
兰州相亲现场:35+女士站成排,男士都绕着走,评论区全是大实话

兰州相亲现场:35+女士站成排,男士都绕着走,评论区全是大实话

谭谈社会
2026-05-24 23:20:37
日本不许中国管制稀土,中国换了新打法,7月1日起,新规将生效

日本不许中国管制稀土,中国换了新打法,7月1日起,新规将生效

流年恰似繁花汐
2026-06-22 05:33:05
大反转!耿同学转发导师杨昀声明:我高考裸分676分,不是湖南人

大反转!耿同学转发导师杨昀声明:我高考裸分676分,不是湖南人

火山詩话
2026-06-22 07:54:11
CBA最新消息!许利民重返北京首钢,李炎哲或离开新疆男篮

CBA最新消息!许利民重返北京首钢,李炎哲或离开新疆男篮

体坛瞎白话
2026-06-22 08:16:55
特朗普持续抨击梅洛尼:美伊停战后,意总理又想“重修旧好”

特朗普持续抨击梅洛尼:美伊停战后,意总理又想“重修旧好”

参考消息
2026-06-21 16:01:10
网友质疑爱奇艺广告“偷时间”:显示广告时长18秒,实际播放21秒

网友质疑爱奇艺广告“偷时间”:显示广告时长18秒,实际播放21秒

识礁Farsight
2026-06-21 10:50:10
阿根廷vs奥地利!小蜘蛛回归,首发换3人,梅西冲世界杯进球纪录

阿根廷vs奥地利!小蜘蛛回归,首发换3人,梅西冲世界杯进球纪录

小火箭爱体育
2026-06-21 18:52:50
某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

番外行
2026-02-26 19:53:05
意媒:米兰未来不会解散,球队将找寻外籍教练接手

意媒:米兰未来不会解散,球队将找寻外籍教练接手

懂球帝
2026-06-21 23:12:32
一场1-0打乱C组格局!巴西形势不妙,无缘小组头名就要遭遇荷兰!

一场1-0打乱C组格局!巴西形势不妙,无缘小组头名就要遭遇荷兰!

林子说事
2026-06-21 14:28:13
中国男篮VS荷兰!郭士强拒绝输球,杨瀚森确定出战,央视直播

中国男篮VS荷兰!郭士强拒绝输球,杨瀚森确定出战,央视直播

体坛瞎白话
2026-06-22 07:30:39
森保一:比赛目标永远都是先赢球;第三战对瑞典要努力保持不失球

森保一:比赛目标永远都是先赢球;第三战对瑞典要努力保持不失球

懂球帝
2026-06-22 03:14:08
防长遭中国制裁,菲总统亲自出面见普京,不料遭俄罗斯狮子大开口

防长遭中国制裁,菲总统亲自出面见普京,不料遭俄罗斯狮子大开口

闻识
2026-06-21 14:50:28
搞笑图片第1250期:我要住这个站,我非得写个万字书要求改名

搞笑图片第1250期:我要住这个站,我非得写个万字书要求改名

今天的快乐
2026-06-21 22:14:43
2026-06-22 09:04:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3708695文章数 8249关注度
往期回顾 全部

科技要闻

SpaceX 74天闪电IPO,OpenAI能照搬吗?

头条要闻

涨粉1400多万接"失业通知书" 佛得角门将收不续约通知

头条要闻

涨粉1400多万接"失业通知书" 佛得角门将收不续约通知

体育要闻

18岁斩世界杯首球!亚马尔连创5大纪录

娱乐要闻

原来她就是张颂文老婆

财经要闻

这门“躺赚”的生意,要凉了?

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

旅游
教育
健康
亲子
游戏

旅游要闻

100+展位、五大板块 福田新洲河畔端午圩市趣玩3天

教育要闻

翁虹晒女儿高中毕业,全年级前三,拿全A毕业,最终选择UCLA大学

吃粽子的3条保胃法则,消化科医生推荐

亲子要闻

纸尿裤“罗生门”:消费信任透支,真相越辩越远?

《刺客信条:黑旗 记忆重置》女角新细节图欣赏

无障碍浏览 进入关怀版