网易首页 > 网易号 > 正文 申请入驻

仅需10%思维链标注,等同全量性能!中科院发布推理监督新范式

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:LRST

【新智元导读】大语言模型(LLMs)推理能力近年来快速提升,但传统方法依赖大量昂贵的人工标注思维链。中科院计算所团队提出新框架PARO,通过让模型学习固定推理模式自动生成思维链,只需大模型标注1/10数据就能达到全量人工标注的性能。这种方法特别适合像金融、审计这样规则清晰的领域,为高效推理监督提供了全新思路。

过去一年,大语言模型(LLMs)的推理能力迎来爆发式提升,其核心范式——SFT+RLVR——已成为主流。

SFT(Supervised Fine-Tuning)通过高质量的思维链(rationales)有监督地微调模型,而RLVR(Reinforcement Learning with Verifiable Rewards)则进一步利用可验证奖励信号通过强化学习扩展模型的推理能力,无需思维链监督。

然而,为SFT阶段标注高质量思维链的过程既昂贵又耗时,难以规模化。

中科院计算所团队通过系统实验发现,对于「模式化推理」(Patterned Reasoning)任务,并不需要大量人工思维链,只需让模型掌握任务的推理模式即可。


论文链接:https://arxiv.org/pdf/2510.12643

他们提出了一个简单而高效的框架——PARO(Pattern-Aware LLMs as Rationale AnnOtators),仅用 1/10 的LLM自动标注数据,性能几乎等同于全量人工标注,为解决「思维链监督昂贵、难以扩展」的核心问题提供了全新的视角与方案。

什么是 Patterned Reasoning?

固定模式下的「程序化推理」

并非所有推理任务都要求模型「临场思考」。

有一类任务,虽然语义复杂,但推理路径几乎固定—— 这就是模式化推理任务(Patterned Reasoning Tasks)。

直观理解就是:不同样本内容不同,但「解题思路」一模一样。

常见的例子包括准则驱动的任务,例如:

形式化地,这类任务的执行过程可以抽象为,其中:

是稳定的推理模式(Reasoning Pattern),代表任务所需遵循的固定步骤或逻辑框架;

是样本特定内容(Instance-specific Content),即每个实例不同的文本、数值或事实;

表示将模式应用到内容的过程,生成最终输出。

自适应推理任务(Adaptive Reasoning Tasks)

在这些任务中,模型无法依赖统一模式,因为不同样本可能需要完全不同的解题策略。

例如:

形式上,这类任务可表示为,此时是随样本变化的推理模式,模型需要根据输入灵活选择最合适的思维路径。


为什么Patterned Reasoning值得关注?

研究人员指出,很多金融、审计、法律、风控等工业界的任务(如自定义类别的分类任务、抽取类任务、审核类任务)本质上都是 patterned reasoning——同一套「执行步骤/判断流程」适用于不同实例,实例间主要差别是输入内容而非推理策略。

例如该论文主要研究了两类金融领域的模式化推理任务:

数值语义匹配(NSM):判断两处数值是否指代同一个数值事实。 推理流程:定位数值 → 结合上下文理解数值含义 → 语义分解、对齐 → 逐条判断判断是否等价。

交易目的分类(TPC):判断银行交易流水的用途。推理流程:识别账户与交易方向 → 提取关键词 → 对照预定义的分类体系 → 输出类别。 虽然每条交易内容不同,但规则和决策逻辑是一致的。

这些任务有个共同点:不需要「灵感式推理」,只要遵循固定步骤。

因此,对该类任务,论文提出了关键假设:

模型真正需要学习的,不是每条人类思维链的具体内容,而是背后统一的「推理模式」。

控制实验

推理监督中,什么才是关键?

论文以NSM任务作为代表性的模式化推理任务。为避免数据污染对结论产生干扰,研究团队自行收集了10万条样本并标注正确答案,同时邀请专家精心标注了1万条人工思维链。


NSM任务上不同训练策略的性能比较

通过两个对照实验,研究人员揭示了在SFT + RLVR范式下,模型主要在SFT阶段学习到任务的推理模式,而人工思维链的数量与质量对最终性能的影响并不显著:

1.数量敏感性实验:将SFT的人工思维链数量从10k随机减少至1k(保持推理模式不变),SFT阶段性能明显下降;但经过RLVR优化后,两者差距几乎消失(图2a)。


图2 控制实验结果:SFT与RLVR阶段的性能演化

结果说明只要 SFT 能够有效传授推理模式,RLVR可以通过强大的自我探索能力弥补差距。

2.质量扰动实验:将25%的人工思维链替换为GPT-4.1生成的错误思维链(但保持整体推理模式不变),SFT+RLVR的最终性能依然接近原版,甚至在部分设置下略有提升——作者推测这是由模型生成的「多样性」带来的正向作用。

进一步证明:「推理模式更重要而非每条标注思维链都要完美」 。

这些实验同时揭示了SFT与RLVR的分工机制:

SFT用标注的思维链教模型「怎么思路化地解题」;

RLVR利用规则化、可验证的奖励信号,将所学推理模式泛化到更多任务实例中。

模型真的学到了「推理模式」吗?

为了验证模型是否真的「内化了推理模式」,作者设计了一个颇具启发性的分析工具,用于刻画不同训练策略下模型的推理行为。

核心思路是:

找出那些「一旦换词就会导致答案变化」的关键token——这些高影响力token,正是模型的推理锚点。

具体而言,研究人员提出并实现了「基于采样的关键token检测」方法。

其基本原理是:

识别模型生成回复中的高熵token 位置(即模型最犹豫的地方);

研究团队使用该方法提取了经不同训练策略(SFT+RLVR / pure-RLVR / UFT)得到的模型的 forking token,结果发现:

SFT+RLVR训练的模型,其forking token更具任务相关性——也就是说,模型的关键决策点集中在与任务语义相关的词汇上。

具体来看(见图3),SFT+RLVR 模型的forking token多为「任务关键词」(如 different, main_business),而pure-RLVR或UFT模型的forking token则更多是与任务无关的连接词或泛词(如but, because)。

这说明在后两种策略中,模型的推理模式尚未得到良好内化。

由此可见:SFT+RLVR不仅优化了结果,更让模型真正掌握了任务的推理模式。


图3 SFT+RLVR / pure-RLVR / UFT模型的forking token频率分布

PARO

用模式先验让大模型「自标注思维链」

基于上述发现,研究人员提出了PARO(Pattern-Aware LLMs as Rationale AnnOtators) —— 让LLM在「模式提示」下生成思维链,取代人工标注。

流程非常简单实用:

1.Prompt设计

写清任务说明;

明确推理模式,通过人类专家撰写,详细列出步骤化的形式;

给出格式规范和若干示例。

2.生成器选择

使用强推理模型(论文用 Qwen3-235B-thinking)生成思维链。

3.训练流水线

用生成思维链构造SFT数据;

然后走标准的SFT+RLVR优化流程。

研究人员在NSM与TPC两项任务上实现了该流程并报告了结果,如图4所示。


图4 PARO在NSM与TPC任务上的实验结果

在NSM数据集上:SFT(1k, PARO)+RLVR的准确率与F1(92.2 / 83.6)几乎匹配SFT(10k, Human)+RLVR(92.3 / 83.2),仅使用大模型标注的1k条思维链即可达到10k人工标注思维链相当的性能。这是论文最直观也最有说服力的结论。

另外PARO优于直接蒸馏大模型内部推理轨迹的方法SFT(1k, Distill)+RLVR。

从实验到落地

如何应用PARO?

先分类

把推理任务按「是否模式化」分类(参考论文对 pattern 的形式化描述)。只对模式化推理任务尝试PARO。

小规模尝试

人工写任务的详细推理步骤并附带少量思维链示例,用强推理模型生成少量PARO思维链。对比同数量的纯人工思维链,关注最终指标与标注成本。如果PARO效果接近甚至超越人工标注, 证明可行。

质量监控

用forking-token检测或人工抽查来评估PARO思维链训练的模型是否真的「对齐了推理模式」;如果关键决策点与任务相关性较差,补充更细致的推理模式或者提供更多的数据。

让模式取代人力

让模型学会「有章可循地思考」

这篇论文传递了一个重要信号:

对于可模式化的推理任务,推理模式比标注思维链的数量和质量更关键。

PARO给出了一个高性价比、可落地的推理监督新范式:

推理模式提示 → LLM生成思维链 → SFT → RLVR

在金融、审计、法律等规则性强的工业场景中,这种思路有极高的实用价值。更重要的是,它隐含着一种趋势:

推理监督的未来,或许不是「人教模型」,而是「模型教模型」。

参考资料:

https://arxiv.org/pdf/2510.12643

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
从盒区房消费报告看——新兴城市消费从“被动下沉”转向“主动崛起”|商业快评

从盒区房消费报告看——新兴城市消费从“被动下沉”转向“主动崛起”|商业快评

封面新闻
2026-01-09 11:26:47
冯提莫直播掀衣晒松垮肚皮 认「瘦了25公斤」自嘲:全是皱褶

冯提莫直播掀衣晒松垮肚皮 认「瘦了25公斤」自嘲:全是皱褶

湘村大余
2026-01-07 16:31:17
袁世凯坐龙椅的真实老照片,接受群臣朝拜,“妃子们”也非常漂亮

袁世凯坐龙椅的真实老照片,接受群臣朝拜,“妃子们”也非常漂亮

文史微鉴
2025-12-13 22:13:15
马筱梅首晒孕晚期写真!宝宝性别引热议,衣服和婴儿房暴露太多!

马筱梅首晒孕晚期写真!宝宝性别引热议,衣服和婴儿房暴露太多!

古希腊掌管月桂的神
2026-01-06 16:58:12
恭喜穆帅!有望重返曼联!名宿出面力挺,霸气性格,成重建关键

恭喜穆帅!有望重返曼联!名宿出面力挺,霸气性格,成重建关键

阿泰希特
2026-01-09 12:34:31
随着喀麦隆0-2,马里0-1,非洲杯4强已经出炉2席

随着喀麦隆0-2,马里0-1,非洲杯4强已经出炉2席

侧身凌空斩
2026-01-10 05:02:36
李幼斌称父亲98岁母亲95岁,都住在养老院,每次见他们都很痛苦

李幼斌称父亲98岁母亲95岁,都住在养老院,每次见他们都很痛苦

阿纂看事
2026-01-09 16:22:21
赢球不可怕缺谁谁尴尬!邱彪和高诗岩不在,谢智杰抓住了机会

赢球不可怕缺谁谁尴尬!邱彪和高诗岩不在,谢智杰抓住了机会

二爷台球解说
2026-01-09 23:32:27
经纪人:詹姆斯的上限是他自己如今的成就,下限是巅峰卡尔-马龙

经纪人:詹姆斯的上限是他自己如今的成就,下限是巅峰卡尔-马龙

懂球帝
2026-01-09 22:46:02
离婚19年,朱玲玲每周三仍回霍家吃饭。不是复婚,也不是演戏。

离婚19年,朱玲玲每周三仍回霍家吃饭。不是复婚,也不是演戏。

百态人间
2026-01-10 05:15:03
重磅!全球局势不稳,新华社官宣轰20、歼-36或在2026年正式亮相

重磅!全球局势不稳,新华社官宣轰20、歼-36或在2026年正式亮相

铁锤简科
2026-01-09 13:53:52
江苏男子在网上应聘远洋船员,前往柬埔寨转机失联10天,妻子怀疑招聘是诈骗

江苏男子在网上应聘远洋船员,前往柬埔寨转机失联10天,妻子怀疑招聘是诈骗

极目新闻
2026-01-09 20:26:42
女子补办户口本发现名下多个13的儿子,丈夫:孩儿他妈我不知道是谁,我俩离婚就行了,医院:错了会追查

女子补办户口本发现名下多个13的儿子,丈夫:孩儿他妈我不知道是谁,我俩离婚就行了,医院:错了会追查

观威海
2026-01-09 09:18:04
57岁伊能静晒泳装蜂腰翘臀,胸部打码引秦昊生理性心动

57岁伊能静晒泳装蜂腰翘臀,胸部打码引秦昊生理性心动

王投吃吃喝喝
2026-01-08 00:15:39
潜伏:不要被看似楚楚可怜的穆晚秋骗了,她才是全剧隐藏最深的人

潜伏:不要被看似楚楚可怜的穆晚秋骗了,她才是全剧隐藏最深的人

杨角风发作
2026-01-09 15:57:17
火箭再战开拓者!伤病报告出炉:客队双核伤缺,主队超级残阵出战

火箭再战开拓者!伤病报告出炉:客队双核伤缺,主队超级残阵出战

熊哥爱篮球
2026-01-09 20:20:32
军事专家:“南天门计划”技术实现只是时间问题

军事专家:“南天门计划”技术实现只是时间问题

财联社
2026-01-09 16:01:27
证监会提高“吹哨人”奖励,最高奖励100万元

证监会提高“吹哨人”奖励,最高奖励100万元

每日经济新闻
2026-01-09 21:16:39
女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

纸上的心语
2025-11-23 11:36:00
美媒通告全球:歼-20飞越台岛上空,台军根本抓不到,统一成定局

美媒通告全球:歼-20飞越台岛上空,台军根本抓不到,统一成定局

闻香阁
2026-01-09 10:56:12
2026-01-10 06:16:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1980267文章数 5202关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

媒体称委内瑞拉代总统计划13日访问华盛顿 委方回应

头条要闻

媒体称委内瑞拉代总统计划13日访问华盛顿 委方回应

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

关晓彤鹿晗风波后露面 不受影响状态佳

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

助跑三年的奇瑞 接下来是加速还是起跳?

态度原创

手机
本地
房产
数码
旅游

手机要闻

vivo X200T详细参数曝光,X300 Ultra待发布

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

数码要闻

铭凡CES 2026新闻稿提及英特尔酷睿Ultra 9 290HX Plus处理器

旅游要闻

想看雾凇别瞎跑!吉林阿什哈达这 5 个观赏秘诀,帮你避开空跑遗憾

无障碍浏览 进入关怀版