网易首页 > 网易号 > 正文 申请入驻

QwenLong-L1.5发布:让30B MoE模型长文本推理能力媲美GPT-5

0
分享至



作为大模型从业者或研究员的你,是否也曾为一个模型的 “长文本能力” 而兴奋,却在实际应用中发现它并没有想象中那么智能?

你大概率也遇到过以下困境之一:

虚假的繁荣: 模型在 “大海捞针” (Needle-in-a-Haystack) 测试中轻松取得高分,营造了一种长文本能力已经解决的 “虚假繁荣”。但一旦任务从简单的信息定位,升级为需要串联分散证据、整合全局信息的多跳推理 (multi-hop reasoning) 时,模型的表现便会急转直下,难以构建起完整的逻辑链条,暴露出其在深度理解上的真实短板。

训练的噩梦: 长文本、多任务的训练数据就像一个成分复杂的 “大杂烩”,其多源、多域的特性,让标准的 RL 算法严重 “水土不服”。你精心设计的奖励函数(Reward Function)很可能因为数据分布的剧烈变化而产生偏差,导致模型性能不升反降。最终,监控图上那剧烈震荡的奖励和熵(Entropy)曲线,无情地宣告着训练过程的 “翻车” 与崩溃。

窗口的天花板: 即使上下文窗口被扩展到 256K,1M 甚至更长,它也终究是一个有限的 “物理内存”。然而,现实世界的知识流 —— 分析整个代码仓库、研读一份完整的年度财报、或是精读一部专业巨著 —— 其信息量轻易就能突破这个上限。这使得模型在处理这些 “超框”(Out-of-Window)任务时,不得不依赖分块处理等妥协方案,最终导致关键全局信息的丢失和端到端推理能力的降级。

如果这些场景让你倍感熟悉,那么问题很可能不在于你不够努力,而在于业界缺少一套完整、端到端的长文本推理后训练 “配方”(Post-training Recipe)。

针对这一系列挑战,通义文档智能团队正式推出QwenLong-L1.5—— 一个基于 Qwen3-30B-A3B 打造的长文本推理专家。我们的核心贡献,正是提供了这套缺失的 “配方”,它系统性地统一了:

  • 可扩展的高质量数据合成管线
  • 为长文本定制的强化学习方法
  • 突破物理窗口的智能体架构

这套组合拳,旨在一次性解决从 “学不好” 到 “用不了” 的全链路难题。



  • 技术报告: https://huggingface.co/papers/2512.12967
  • GitHub 仓库: https://github.com/Tongyi-Zhiwen/Qwen-Doc

深入拆解:我们的三大「法宝」

要让模型真正掌握长文本推理,零敲碎打的优化是远远不够的。我们提出了一套系统性的 “组合拳”,包含三大核心法宝,从根本上重塑模型的学习与思考方式。

法宝一:高质量 “精神食粮” —— 多跳推理数据合成流水线

模型的 “食粮” 决定了它的 “智商”。如果只给模型投喂简单的 “大海捞针” 式任务,就如同只让学生做单选题,却期望他能写出长篇论述文。

为了教会模型真正的 “思考”,我们打造了一条新颖的数据合成流水线。其核心思想是 “先拆解,后组合”,专造需要 “多跳溯源 (multi-hop grounding) 和全局推理” 的难题。这就像用乐高积木拼城堡:我们先把一本巨著拆解成一个个知识 “积木”(原子事实),再根据复杂的 “图纸”(如知识图谱、多文档表格),把这些分布在不同章节的积木拼成一个宏伟的 “城堡”(复杂问题)。



这条流水线由三大 “出题引擎” 驱动,能程序化地生成无穷无尽的高质量挑战:

  • 知识图谱引导 (KG-Guided): 自动挖掘文档间的深层逻辑链,生成环环相扣的多跳推理题,强制模型进行跨段落、跨文档的关联思考。
  • 跨文档表格引擎 (Cross-document Table Engine): 从多个非结构化文档中自动抽取出数据,整合成统一的结构化表格,据此生成需要聚合、统计与复杂计算的数值推理题。
  • 多智能体自我进化 (MASE): 设计一个由 “出题者”、“解题者”、“检验者” 组成的多智能体框架,基于无标签文档自动合成通用长文本任务,通过 “出题 - 解题 - 检验” 的循环,结合历史合成任务提升任务难度和广度。

法宝二:稳定高效的 RL 优化策略

强化学习(RL)是提升模型推理能力的关键,但在长文本、多任务场景下,标准的 RL 方法会面临两大严峻挑战,极易导致训练崩溃。

第一个挑战源于数据分布的异构性。我们的长文本训练数据来自代码、学术文献、财报等多个领域,任务类型也涵盖了问答、计算、分析等。这种复杂性导致在训练的每个批次(mini-batch)内,数据分布都会发生剧烈偏移(distributional drift)。



这种偏移会严重干扰奖励信号(reward)的稳定性,并对优势函数(advantage function)的估计引入巨大噪声,使得梯度更新方向变得极不可靠。为解决此问题,我们采取了双重策略:

任务均衡采样(Task-balanced Sampling): 在构建每个训练批次时,强制从不同的任务类型(如多跳推理、数值计算、对话记忆等)中均匀抽取样本,从源头上保证了批次内数据分布的相对均衡。

任务专属优势估计(Task-specific Advantage Estimation): 在计算优势函数时,我们不再对整个批次的奖励进行标准化,而是在每个任务类型内部独立进行。这能有效隔离不同任务间迥异的奖励分布(如 0/1 的稀疏奖励与 0-1 的密集奖励),从而为每个任务提供更准确、更稳定的优势信号。

第二个挑战是长文本推理中的信用分配难题(Credit Assignment Problem)。在生成式任务中,一个最终错误的答案(negative response)往往包含了大量完全正确的中间推理步骤。传统的 RL 算法通过一个单一的负向奖励来惩罚整个序列,这种 “一刀切” 的做法会错误地惩罚那些正确的、具有探索价值的步骤,不仅压制了模型的探索能力,甚至可能导致 “熵坍塌”(entropy collapse)和训练早停。



为此,我们提出了自适应熵控制策略优化(Adaptive Entropy-Controlled Policy Optimization, AEPO)算法。AEPO 的核心是一种基于模型自身不确定性(以策略熵衡量)的动态梯度屏蔽机制:

当模型在高不确定性(高熵)状态下生成了错误答案时,AEPO 会主动屏蔽(mask)其负向梯度。这保护了模型的探索性行为,避免因惩罚不成熟的尝试而丧失学习潜力。

反之,当模型在高置信度(低熵)状态下依然犯错时,负向梯度会被正常施加,以坚决纠正这些高置信度的错误。

通过这种动态的、智能的梯度控制,AEPO 将模型策略的熵稳定在一个健康的区间,完美平衡了探索与利用,从根本上解决了长文本 RL 中的不稳定性问题。

法宝三:突破极限的 “外置大脑”—— 记忆管理框架

256K 的上下文窗口,本质上是一种有限的 “短期记忆”。当面对浩如烟海的真实世界知识流时,我们需要的不是一个更大的窗口,而是一个全新的工作模式。

为此,我们为模型设计了一套记忆管理框架 (Memory Management Framework),这相当于给了它一个可无限扩展的 “智能笔记本”。在阅读超长文档时,模型不再试图将所有内容硬塞进 “短期记忆”,而是学会了边读边记要点(迭代式记忆更新),形成结构化的记忆,并在需要时高效检索和利用这些 “笔记”。

但这并非一个孤立的工具。通过巧妙的多阶段融合 RL 训练 (multi-stage fusion RL training),我们将这种 “笔记能力” 与模型与生俱来的 “过目不忘”(窗口内推理)能力无缝地融合在了一起。最终得到的,是一个统一的模型 —— 一个既能 “深思” 又能 “博览” 的全能选手,真正突破了物理窗口的束缚。

效果展示

性能全面飞跃,30B moe 模型实现媲美顶级旗舰的效果!



QwenLong-L1.5 在多个权威长文本推理基准上取得了令人瞩目的成绩,其表现可以总结为:

  • 整体性能飞跃: 相比基线模型 Qwen3-30B-A3B-Thinking,QwenLong-L1.5 的平均分暴涨 9.9 分!这证明了我们全套后训练 “配方” 的巨大成功。
  • 比肩顶级旗舰: 在多个权威长文本榜单上,我们的 30B-A3B 模型取得了与 GPT-5、Gemini-2.5-Pro 等业界顶级闭源模型相媲美的性能,展现了极强的竞争力。
  • 精准的能力跃升: 更值得注意的是,我们的性能提升精准地体现在了最能考验深度推理能力的复杂任务上。在需要多跳推理和全局信息整合的 MRCR、CorpusQA 和 LongBench-V2 等基准上,我们分别取得了+31.72、+9.69 和 +6.16 的性能增长!

这并非巧合,而是精准地验证了我们 “高质量精神食粮”(可编程数据合成)的有效性 —— 我们专门为模型打造了什么样的难题,它就在解决这些难题上获得了最强的能力!

意外之喜:通用能力不降反升!

训练 “专才” 是否会牺牲 “通才” 能力?这是大模型微调中常见的 “跷跷板” 难题。

我们的答案是:不仅不会,反而会相互促进!



实验结果显示,经过长文本强化训练后,QwenLong-L1.5 不仅没有出现 “偏科” 或 “遗忘”,反而在一系列通用能力上也获得了显著提升:

  • 在数学推理 (AIME25) 任务上表现更优;
  • 在智能体记忆 (BFCL) 任务中展现出更强的状态追踪能力;
  • 在长对话 (LongMemEval) 场景下,记忆和理解能力大幅增强。

这有力地证明了,提升长程信息整合能力,是一种基础性的 “认知升级”,其收益会辐射到模型的各项核心能力之中。

挑战极限:征服 1M~4M Token 超长文本!

当任务长度远超物理上下文窗口时,模型真正的扩展能力才得以体现。

借助我们的 “外置大脑”(记忆管理框架),QwenLong-L1.5 在处理百万、甚至四百万级别的超长任务时,展现出了卓越的性能。



结果显示,QwenLong-L1.5 在这些极限挑战中,性能远超同类智能体方法,充分验证了我们框架强大的可扩展性。这表明,我们不仅提升了模型在窗口内的能力,更赋予了它突破物理窗口限制、处理无限信息流的巨大潜力。

总结


总结:我们提出的 QwenLong-L1.5 及其背后的 “数据合成 + RL 优化 + 记忆管理” 三位一体的后训练框架,为解决大模型长文本推理难题提供了一条经过验证的、可复现的路径。

开源呼吁:我们相信开放与共享的力量。相关技术细节已在论文中公布,代码也在 https://github.com/Tongyi-Zhiwen/Qwen-Doc 开源。欢迎大家下载使用、交流探讨,共同推动长文本技术的发展!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
叶童说:我知道他在香港当保安收入很低,但我不会去看他。

叶童说:我知道他在香港当保安收入很低,但我不会去看他。

特约前排观众
2025-12-28 00:15:06
美国军火商洛马公司因没缴纳中方开出990亿罚单,后果竟如此严重

美国军火商洛马公司因没缴纳中方开出990亿罚单,后果竟如此严重

百态人间
2025-12-13 16:07:09
香港183年老店告别!店主含泪劝慰港人:要撑起自己,别让人看低......

香港183年老店告别!店主含泪劝慰港人:要撑起自己,别让人看低......

港漂圈
2025-12-29 20:14:34
梅西是神!亚马尔:C罗能有今天的成就在于他不跟任何人比较

梅西是神!亚马尔:C罗能有今天的成就在于他不跟任何人比较

茜子足球
2025-12-29 12:02:45
南博事件是对国家公信力的重大冲击,在国际上造成十分恶劣影响!

南博事件是对国家公信力的重大冲击,在国际上造成十分恶劣影响!

百态人间
2025-12-29 16:39:22
违规!温州一教育局被查了

违规!温州一教育局被查了

温百君
2025-12-29 22:28:35
新加坡向全世界道歉:因为中国,我们变了!

新加坡向全世界道歉:因为中国,我们变了!

新加坡万事通
2025-07-03 21:15:33
一年爆卖13亿,这个羽绒服品牌竟然是山东县城产的?

一年爆卖13亿,这个羽绒服品牌竟然是山东县城产的?

据说无据
2025-12-29 14:52:23
炒股再过50年都不变的黄金定律:七不买 三不卖

炒股再过50年都不变的黄金定律:七不买 三不卖

流苏晚晴
2025-12-28 17:18:27
北京楼市起飞上天了,北京待售二手房从136730套减少到了133354套

北京楼市起飞上天了,北京待售二手房从136730套减少到了133354套

有事问彭叔
2025-12-29 15:44:41
12月25日,公安部经侦局终于把话挑明了:严打金融“黑灰产”。

12月25日,公安部经侦局终于把话挑明了:严打金融“黑灰产”。

南权先生
2025-12-29 16:53:24
串通报价、操纵市场,多家电力巨头被查

串通报价、操纵市场,多家电力巨头被查

新浪财经
2025-12-29 07:39:18
徐湖平父亲和岳父身份被扒!个个不简单,难怪举报他4次都不成功

徐湖平父亲和岳父身份被扒!个个不简单,难怪举报他4次都不成功

叶公子
2025-12-27 19:19:28
向太太敢说了!向华强今年已经78了,但是她和向华强还有X生活!

向太太敢说了!向华强今年已经78了,但是她和向华强还有X生活!

心静物娱
2025-12-24 11:02:28
随着辽宁遭3连败,上海大胜北控,CBA最新积分榜:3大黑马杀进前6

随着辽宁遭3连败,上海大胜北控,CBA最新积分榜:3大黑马杀进前6

侃球熊弟
2025-12-29 21:36:28
31岁,太汹涌了,事业线让人挪不开眼

31岁,太汹涌了,事业线让人挪不开眼

技巧君侃球
2025-12-07 18:13:13
事业单位最闲的岗位是啥?网友:气象局的人看到这个真是笑了

事业单位最闲的岗位是啥?网友:气象局的人看到这个真是笑了

解读热点事件
2025-10-08 00:20:03
沉寂8天后,中国对美强硬出手,力度之大、范围之广前所未有

沉寂8天后,中国对美强硬出手,力度之大、范围之广前所未有

荷兰豆爱健康
2025-12-30 04:10:55
新款丰田塞纳亮相!外观时尚,新增2.4T混动,奥德赛还扛得住?

新款丰田塞纳亮相!外观时尚,新增2.4T混动,奥德赛还扛得住?

刘哥谈体育
2025-12-29 16:14:56
她拿下10个世界冠军,今43岁身价8亿却无人敢娶,择偶标准太吓人

她拿下10个世界冠军,今43岁身价8亿却无人敢娶,择偶标准太吓人

揽星河的笔记
2025-12-21 23:24:49
2025-12-30 05:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12016文章数 142523关注度
往期回顾 全部

科技要闻

肉搏非洲,传音不想只当个卖手机的

头条要闻

特朗普谈乌克兰试图袭击普京官邸:对此很生气

头条要闻

特朗普谈乌克兰试图袭击普京官邸:对此很生气

体育要闻

“史上最贵”的世界杯,球迷成了韭菜

娱乐要闻

44岁林俊杰官宣恋情 带23岁女友见家长

财经要闻

翁杰明:宏观数据与居民微观感受存在差距

汽车要闻

“路”要越走越深,猛士的智能越野时代来了

态度原创

亲子
艺术
游戏
旅游
手机

亲子要闻

为什么有些父母就是不听子女的劝?因为他们只信真正适合自己的!途韧姜黄骨胶原,七合一的营养搭配,贴合爸...

艺术要闻

Ginny Page:英国当代现实主义画家

《侍道》?Acquire称公司希望复活旗下老IP

旅游要闻

“双节”期间去哪儿玩?揭阳超千场文化活动等你来!

手机要闻

小米17 Plus:6.9英寸直屏+骁龙8 Elite Gen5,暂定H1登场!

无障碍浏览 进入关怀版