网易首页 > 网易号 > 正文 申请入驻

复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

0
分享至



陆毅,复旦大学自然语言处理实验室硕士生,在 ACL、EMNLP、COLM、NeurIPS 等顶会发表论文十余篇,LongCat Team 核心成员,研究方向为大模型的复杂推理和长序列建模,指导老师为桂韬老师。

郭林森,硕士毕业于东南大学,在 NAACL、EMNLP、Recsys 等会议发表论文多篇,目前就职于美团,LongCat Team 核心成员,研究方向为大模型评测与数据价值挖掘。

王嘉宁,获得华东师范大学博士学位,曾前往 UCSD 访问学习,在 ACL、EMNLP、AAAI、ICLR 等顶会发表论文数十篇,目前就职于美团,LongCat Team 核心成员,研究方向为大模型训练与复杂推理。

研究背景:从「单步推理」到「长链决策」

OpenAI o1、DeepSeek-R1 等大型推理模型(LRMs)的出现,标志着 AI 推理能力进入了「测试时扩展」的新纪元。通过长链推理 Long Chain-of-Thought(CoT),这些模型在数学推理、代码生成、智能体任务等领域取得了令人瞩目的突破。

然而,当前的训练与评测范式存在一个根本性的局限:几乎所有主流 Benchmark(如 MATH500、AIME)都聚焦于孤立的单步问题,问题之间相互独立,模型只需「回答一个问题,然后结束」。但真实世界的推理场景往往截然不同:

  • 一个软件工程师需要连续调试多个相互依赖的代码模块
  • 一个数学研究者需要基于前序定理推导后续结论
  • 一个智能助手需要在多轮对话中逐步完成复杂任务规划

这些场景要求模型具备跨问题的长链推理能力 —— 不仅要解决单个问题,还要在多个相互关联的子问题间维持推理连贯性、合理分配思考资源、进行跨步骤的反思与纠错。

这引出了一个核心问题:大型推理模型的长链推理能力边界究竟在哪里?

现有评测无法回答这个问题,传统训练数据也无法培养这种能力(如图所示,模型在长程推理场景下性能下降严重)。



R1 系列模型在长程推理场景下理论准确率和实际准确率的差异

为填补这一空白,复旦大学与美团 LongCat Team联合推出 R-HORIZON—— 首个系统性评估与增强 LRMs 长链推理能力的方法与基准。



  • 论文标题: R-HORIZON: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?
  • 论文地址: https://arxiv.org/abs/2510.08189
  • 项目主页: https://reasoning-horizon.github.io
  • 代码地址:https://github.com/meituan-longcat/R-HORIZON
  • 数据集: https://huggingface.co/collections/meituan-longcat/r-horizon-68f75703a95676fbfed97879

R-HORIZON:揭开推理模型「能力地平线」

核心创新:Query Composition 方法

R-HORIZON 提出了一种简洁而强大的问题组合(Query Composition)方法,通过建立问题间的依赖关系,将孤立任务转化为复杂的多步骤推理场景。

以数学任务为例:

1. 提取关键信息:从多个独立问题中提取核心数值、变量等信息

2. 建立依赖关系:将前一个问题的答案嵌入到后一个问题的条件中

3. 形成推理链:模型必须按顺序正确解决所有问题才能得到最终答案

这种方法具有三大优势:

  • 可扩展性:可灵活控制推理链长度(n=2, 4, 8...)
  • 可控性:可灵活设定问题间的依赖关系
  • 低成本:基于现有数据集即可构建,无需额外标注

基于这一方法,我们构建了长链推理的评测基准 R-HORIZON Benchmark,用于系统性评估 LRMs 在多步推理场景下的真实能力;同时,我们还构建了长链推理的训练数据,通过强化学习(RLVR)训练来提升模型的长链推理能力。



R-HORIZON 方法示意图 —— 从单一问题到复杂推理链的转化过程以及 R-HORIZON 的应用场景

R-HORIZON Benchmark:全面的长链推理评测基准


基于 Query Composition 方法,我们构建了 R-HORIZON Benchmark,涵盖 6 大代表性数据集:



核心发现:顶级模型的「推理断崖」

我们评测了 20+ 个主流 LRMs(包括 o4-mini、Claude-Sonnet-4、DeepSeek-R1 等顶级商业模型以及开源模型),结果揭示了一个令人震惊的现象:即使是最先进的模型,在长链推理场景下也会出现性能断崖式下降。

关键发现:

  • 普遍性能衰退:所有模型随着问题数量增加都出现显著性能下降。DeepSeek-R1 在 AIME25 单问题场景下准确率达 87.3%,但在 5 个组合问题场景下暴跌至 24.6%
  • 模型规模影响:更大的模型对多步推理挑战展现出更强的韧性
  • 任务依赖性衰退:代码生成任务相比数学任务表现出更陡峭的性能下降;许多推理模型在网页搜索场景中失去了工具调用能力



R-HORIZON Benchmark 评测结果 —— 所有模型均出现显著性能衰退

深度分析:推理模型的三大瓶颈


为了理解性能断崖背后的原因,我们进行了深入的机制分析,发现当前 LRMs 存在三个关键瓶颈:

1. 有效推理长度受限

随着相互依赖问题数量的增加,LRMs 难以维持其性能。实际准确率与理论准确率之间的差距显著扩大,表明模型无法在更长的推理范围内保持原有性能。

深入分析发现:

  • 模型错误稳定在特定的上下文范围内
  • 7B 模型的主要错误范围在 (4-6K tokens)
  • 32B 模型将范围扩展到 (8-10K tokens)
  • 这表明更大的模型拥有更长的有效推理边界



R1-Qwen-7B 和 R1-Qwen-32B 在准确率和错误位置上的分析

2. 反思机制高度局部化

我们分析了模型的「反思」行为,发现:

  • 模型的反思频率随着问题数量增加而上升并趋于收敛
  • 超过半数的复杂任务完全缺乏长程反思(跨越当前问题的反思)
  • 这表明当前 LRMs 的反思机制高度局部化,不足以支撑长链场景



MATH500 数据集上的反思行为分析

3. 思考预算分配失衡

最令人意外的发现是:包括 DeepSeek-R1 在内的主流 LRMs 都无法有效地在推理范围内分配思考预算。

  • 模型倾向于过度分配 tokens 给早期推理阶段
  • 未能合理地将资源分配给后续的关键问题
  • 这种失衡严重影响了整体推理链的完成质量



不同组合问题数量下各模型的思考预算分配

R-HORIZON 训练:重塑推理模型的能力边界

发现问题只是第一步,我们进一步探索:能否通过使用组合数据进行强化学习训练来突破这些瓶颈?

RLVR with R-HORIZON:用长链数据训练推理模型

我们使用 R-HORIZON 构建的长链推理数据并使用 GRPO 算法进行训练,训练策略:

  • 基于主流 RLVR 算法 GRPO 进行训练
  • 使用 R-HORIZON 组合数据(n=2, n=4)
  • 设计不同的奖励函数进行对比实验

突破性成果:双重性能提升

实验结果令人振奋:R-HORIZON 训练不仅显著提升长链任务表现,连单问题性能也大幅增强。



加粗数字表示该列最佳成绩



不同训练配置下的性能对比。"Origin" 表示单问题场景,"n=X" 表示 X 个组合问题场景,"Multi" 表示多问题场景的平均性能

关键发现:

1. 双重性能提升:使用 n=2 组合问题训练,不仅大幅提升多步推理性能(AIME24 n=2 +17.4 分),单问题性能也显著增强(AIME24 单题 +7.5 分)

2. 可扩展复杂度:增加组合复杂度(n=4)增强了模型处理需要更多推理步骤问题的能力,在 MATH500 (n=8) 上达到 50.6%

训练带来的质变


R-HORIZON 训练不仅提升了性能数字,更带来了推理机制的深层改变:

更高效的推理长度:

训练显著改善了模型在组合任务上的性能,展现出更好的泛化到更长推理链的能力,同时缓解了「overthinking」现象(生成更短、更高效的回答)。

更合理的预算分配:

模型学会了在多步问题中进行更合理的 token 预算分配,不再「重头轻尾」。

更长程的反思能力:

R-HORIZON 促进了模型进行更长程反思的频率增加,直接改善了长链推理性能。



图:使用标准数据集和组合数据集进行强化学习的效果分析

结论与展望:开启长链推理新纪元


R-HORIZON 的推出,标志着大型推理模型研究进入了一个新的阶段 —— 从「能解决什么问题」到「能走多远」的范式转变。

技术贡献

  • 首个长链推理评测基准:系统性揭示了 LRMs 的能力边界,包括有效推理长度、反思范围和思考预算分配的局限性
  • 可扩展训练范式:提供了低成本、高效率的能力提升路径,通过 Query Composition 方法实现可控的长链推理数据构建
  • 深度机制分析:为未来的推理模型指明了改进方向,揭示了当前模型在长链推理中的三大瓶颈

开放生态

R-HORIZON 框架已全面开源,包括:

  • 完整评测代码与 Benchmark 数据
  • 训练数据和训练代码
  • 数据构建流程
  • 详细文档与使用教程

期待与全球研究者携手,共同推动下一代推理模型的发展,让人工智能在现实世界中展现出更卓越的长链推理能力。

资源链接:

Paper:https://arxiv.org/abs/2510.08189

Project Page:https://reasoning-horizon.github.io

GitHub:https://github.com/meituan-longcat/R-HORIZON

Dataset:https://huggingface.co/collections/meituan-longcat/r-horizon-68f75703a95676fbfed97879

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
牢A命中,被一窝端16人都是女留学生

牢A命中,被一窝端16人都是女留学生

雪中风车
2026-01-28 13:23:54
既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

安安说
2026-02-01 14:01:51
就剩日本了

就剩日本了

新民周刊
2026-02-01 09:09:29
官媒怒批!吴京新片《镖人》未映先爆雷,30人8个头衔太荒唐!

官媒怒批!吴京新片《镖人》未映先爆雷,30人8个头衔太荒唐!

史行途
2026-01-30 09:43:04
令人发指!前英国王子安德鲁四肢着地跪爬在女子身上!爱泼斯坦文件持续公开,英首相呼吁安德鲁向美国会做证

令人发指!前英国王子安德鲁四肢着地跪爬在女子身上!爱泼斯坦文件持续公开,英首相呼吁安德鲁向美国会做证

纵相新闻
2026-02-01 19:09:12
中国对委内瑞拉下禁令,特朗普一看形势不对,立即向中方发出邀请

中国对委内瑞拉下禁令,特朗普一看形势不对,立即向中方发出邀请

荐史
2026-02-01 18:00:12
萝莉岛上拆解儿童高达吃肉,这事儿怎么洗?

萝莉岛上拆解儿童高达吃肉,这事儿怎么洗?

韬闻
2026-02-01 13:46:13
伊朗最高领袖哈梅内伊:如果美国挑起战争,这次冲突将不再局限于一地;美方发布“林肯”号航母在阿拉伯海接受补给视频

伊朗最高领袖哈梅内伊:如果美国挑起战争,这次冲突将不再局限于一地;美方发布“林肯”号航母在阿拉伯海接受补给视频

每日经济新闻
2026-02-01 21:46:27
沙特金元足球终于开始暴雷!!

沙特金元足球终于开始暴雷!!

足球大叔1986
2026-02-01 06:41:21
郑钦文退赛仅1天,最新决定曝光!再签1个代言,2025年收入1.4亿

郑钦文退赛仅1天,最新决定曝光!再签1个代言,2025年收入1.4亿

侃球熊弟
2026-02-02 00:20:03
史诗级闪崩!但历史不会简单重演

史诗级闪崩!但历史不会简单重演

新浪财经
2026-02-01 19:11:18
绍伊古突然访华,一天内谈什么?四大焦点曝光!

绍伊古突然访华,一天内谈什么?四大焦点曝光!

华山穹剑
2026-02-01 20:29:38
一觉醒来微信群炸了!腾讯开撒10亿现金红包,已有16人翻出万元奖励“小马卡”!网友:群聊已被刷屏

一觉醒来微信群炸了!腾讯开撒10亿现金红包,已有16人翻出万元奖励“小马卡”!网友:群聊已被刷屏

每日经济新闻
2026-02-01 16:10:05
跌成白菜价,电视却卖不动了!14亿人干不过3亿美国人,太扎心

跌成白菜价,电视却卖不动了!14亿人干不过3亿美国人,太扎心

阿器谈史
2026-01-31 23:19:36
老外看不下去了!吐槽国产手机抄袭iPhone:为了像苹果 3个摄像头里有1个是假的

老外看不下去了!吐槽国产手机抄袭iPhone:为了像苹果 3个摄像头里有1个是假的

快科技
2026-02-01 11:55:44
王阳明临终告诫后人:真正能护你一生的,不是家财万贯!而是这些

王阳明临终告诫后人:真正能护你一生的,不是家财万贯!而是这些

千秋文化
2026-01-29 21:15:30
突发史诗级暴跌!工行、农行、中行、建行、交行等五大行,紧急出手!

突发史诗级暴跌!工行、农行、中行、建行、交行等五大行,紧急出手!

中国基金报
2026-02-01 15:36:35
国外网络基本互通,中国为何限制访问外网?17年前的教训刻骨铭心

国外网络基本互通,中国为何限制访问外网?17年前的教训刻骨铭心

和平声浪
2026-02-01 09:30:41
著名歌星新片差评如潮,两天票房只有6.3万,年度最惨电影诞生

著名歌星新片差评如潮,两天票房只有6.3万,年度最惨电影诞生

影视高原说
2026-02-01 12:20:20
0分0分还是0分!CBA第一混子非他莫属:这水平竟拿600万年薪?

0分0分还是0分!CBA第一混子非他莫属:这水平竟拿600万年薪?

篮球快餐车
2026-02-01 07:24:13
2026-02-02 04:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

本地
数码
游戏
艺术
公开课

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

数码要闻

显存稀缺暴涨:三款RTX 50 GPU将占一季度总供应量75%!

末期癌症玩家圆梦《毁灭战士》!id公开致敬

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版