网易首页 > 网易号 > 正文 申请入驻

无需人工标注!AI自生成训练数据,靠「演绎-归纳-溯因」解锁推理能力

0
分享至

新智元报道

编辑:peter东 英智

【新智元导读】新加坡国立大学等机构的研究者们通过元能力对齐的训练框架,模仿人类推理的心理学原理,将演绎、归纳与溯因能力融入模型训练。实验结果显示,这一方法不仅提升了模型在数学与编程任务上的性能,还展现出跨领域的可扩展性。

当AI试图破解数学、编程与科学的难题时,它常常像一位灵感乍现的天才,却又难以稳定发挥。

新加坡国立大学、清华大学和Salesforce AI Research的研究者,提出了一种革命性的训练框架——元能力对齐,赋予模型稳健的推理能力,让顿悟成为常态。

论文链接:https://arxiv.org/abs/2505.10554

他们提出了一项使大型推理模型的能力变得更加可控和可靠的训练方法,能够高效地系统化培养大模型的数学,编程和科学问题上的基本推理能力。

要理解其突破,需要知道何为啊哈时刻,这里指的是在使用纯强化学习训练大模型的时候,大模型偶然展现出的高级推理行为,如自我纠正、回溯和验证等。

DeepSeek-R1的成功表明,从预训练基础模型或指令微调模型开始,基于规则的纯强化学习能够自发地涌现出长链式思维推理、自我纠正、自我反思等高级行为。

然而,这些涌现行为的频率和一致性,却始终不可预测且无法控制,这就限制了大模型的推理能力的可扩展性和可靠性。

实验方法:模仿心理学,

让大模型稳定地涌现出推理能力

要想做到超越「顿悟时刻」就需要借助于心理学家皮尔斯提出的经典推理三元组,该理论指出人类的推理能力,可以分为三个组件间的组合,分别是假设,观察和规则,根据任意两个,可以得出第三个。

例如根据观察和假设,通过归纳得到可泛化的规则;而基于规则和假设,能根据演绎推断出未来可能的观察结果;至于基于规则和观察,得到假设的过程,称之为溯因。

图1:皮尔斯提出的推理元能力三元组

有了这样的分类,研究者据此构建了一个程序,能自动化生成上述三类推理的实例,用于大模型的训练,并对大模型输出的结果自动进行验证,程序生成的任务,是由常见数据组合而成,但又不再训练数据集中的,由此可训练模型的元推理能力。

例如,在演绎推理(H+R⇒O)中,模型被给定一组逻辑规则R和一个候选真值赋值H作为假设,必须验证整体观察结果O(即所有公式为真)是否成立。

而在归纳推理(H+O⇒R)中,模型被提供可观察项O和不完整输入H,必须抽象出底层生成规则R;在溯因推理(O+R⇒H)中,模型被给定观察结果O和一个规则图R ,必须反向追踪以恢复能够逻辑解释结论的最小隐藏假设集H。

下面是作者给出的一个训练数据的例子,以提示词及正确回复的方式出现。

每个训练实例由自动化生成器产生,并由验证器筛选,从而生成大规模、自我校验的训练数据,完全无需人工标注。

图2:模型训练的三阶段流程概述:对演绎、归纳和溯因专家进行对齐,在参数空间中合并它们,并持续使用强化学习训练统一模型到下游领域

具体来看,该架构下的大模型,可视为一个类似混合专家模型的架构,每类专家拿到的训练数据后,先各自提升自己的能力,演绎推理的「专家」,会在训练后产生假设生成、逻辑推论传播、经验一致性检测和纠错。

归纳专家增强了模型在抽象和泛化方面的基本能力;而溯因专家从目标开始,以假设最小支持性为前提,对照已知事实,高效地进行目标导向的假设形成、验证和修订的重复循环,相当于对因果图进行剪枝。

这些能力是跨领域进行稳健推理的必要组成部分。

之后研究者会后通过参数空间融合,将这些专家合并,然后在数学,编程和社交互动这三种场景上分别使用强化学习训练专家模型(称之为Domain-RL-Meta特定领域元强化学习),之后再对训练好的模型进行融合。

这种训练方法,被称为元能力对齐。

实验结果

高效且可扩展的训练方式

对于上述三类任务,该研究对问题难度进行了分级,并采用循序渐进的学习策略,从易到难逐级训练模型。

按照这个计划,7B模型在2级问题时性能收敛,并且在使用更高级别的训练数据集时,不再提升性能,32B模型偶尔受益于3级难度的训练数据,但奖励曲线不稳定,因此该研究中也没有采用。

研究者在训练过程中,对于7B模型,每个任务每个级别实验200个实例,对于32B模型,每个任务每个级别适应2000个实例。

结果显示:相比指令微调基线(Qwen-2.5),基于元能力对齐的训练方法使模型在数学,编程和科学问题的7个模型从没有见过的基准测试上的准确率提高了10%以上,并通过特定领域强化学习获得进一步增益。

在7B和32B规模下,元能力对齐和合并的模型始终优于指令微调的基线模型,合并后的模型取得了最高增益。

在7B规模模型上,数学问题的平均分从基准的38.8%提升到Domain-RL-Meta的43.0%;而没有经过元能力对齐,只是进行特定领域的强化学习,训练后的表现只有41.2%。

参数量扩展至32B时,数学问题上的表现从46.9升至50.3(特定领域强化学习)再升至52.3(元能力对齐+特定领域强化学习),整体平均分从44.6升至47.4再升至48.8。

对比7B和32B参数量的提升,可看出元能力对齐带来的收益随模型规模增加而扩展,显著提升了各项任务的性能上限,尤其是在数学任务上,合并三种推理模式后,训练好的模型性能提升了11.1%。

表1:不同参数量下,适应元能力对齐训练的大模型在数学和编程问题上的性能

这说明该框架为在数学、编程和科学领域提升推理能力提供了一种可扩展、可推广且可控的方法,有助于构建可解释且鲁棒的推理模型。

这种模块化的训练方式,借鉴了混合专家模型,同时使用来自心理学对人类推理本质的洞见,让大模型的每个专家进行专业分工,擅长一种推理方式,从而能够用小数据集完成快速的性能提升。

这就如同学生学到了能驾驭各家功夫的小无相功后,能够在各种问题上游刃有余。

参考资料:

https://www.alphaxiv.org/abs/2505.10554

https://www.alphaxiv.org/overview/2505.10554

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泽连斯基:欧盟软弱,乌克兰能保护格陵兰岛

泽连斯基:欧盟软弱,乌克兰能保护格陵兰岛

新京报政事儿
2026-01-23 07:20:26
叛军投降了,伊朗已告知全世界,中方电话被挂断,国际规则不能破

叛军投降了,伊朗已告知全世界,中方电话被挂断,国际规则不能破

马浵在解说
2026-01-24 00:21:34
42天阵亡25000人!直接经济损失超2000亿美元,那一仗点醒了我国

42天阵亡25000人!直接经济损失超2000亿美元,那一仗点醒了我国

文史达观
2026-01-22 06:45:04
杨采钰素颜居家状态绝了,婚房内部曝光,福建婆家开明举动赢好感

杨采钰素颜居家状态绝了,婚房内部曝光,福建婆家开明举动赢好感

噶噶香的晚餐
2026-01-21 23:39:41
赵心童用时7分07秒打出147满分,历史上仅次于奥沙利文

赵心童用时7分07秒打出147满分,历史上仅次于奥沙利文

懂球帝
2026-01-23 11:24:38
赵薇参与缅北诈骗?娜扎张云龙彻底分手?王星越恋情被曝光?车银优违法偷税漏税?男爱豆陪已婚富婆?

赵薇参与缅北诈骗?娜扎张云龙彻底分手?王星越恋情被曝光?车银优违法偷税漏税?男爱豆陪已婚富婆?

十锤星人
2026-01-22 23:12:13
美国上周首次申领失业救济人数增加20万人,预估为20.9万人,前值为19.8万人

美国上周首次申领失业救济人数增加20万人,预估为20.9万人,前值为19.8万人

每日经济新闻
2026-01-22 21:41:07
银价涨猛了!女子3年前买钻戒送的足银保温杯,现在身价已超过那枚钻戒

银价涨猛了!女子3年前买钻戒送的足银保温杯,现在身价已超过那枚钻戒

封面新闻
2026-01-23 17:43:03
太有牌面!荷乙邓伯什发布中国U23决赛预告:王博豪获热捧

太有牌面!荷乙邓伯什发布中国U23决赛预告:王博豪获热捧

邱泽云
2026-01-23 17:17:39
暴跌70%,1年消失50万家!曾月薪高达4万的王牌职业今也没落了?

暴跌70%,1年消失50万家!曾月薪高达4万的王牌职业今也没落了?

品牌观察官
2026-01-23 21:02:33
美媒:美国再次成为唯一超级大国,中国曾有机会,但如今输掉竞争

美媒:美国再次成为唯一超级大国,中国曾有机会,但如今输掉竞争

纵拥千千晚星
2026-01-20 14:16:25
被倒数第2双杀!俩首发三分球13中0,场上一顿胡扔,这球不输才怪

被倒数第2双杀!俩首发三分球13中0,场上一顿胡扔,这球不输才怪

金山话体育
2026-01-23 07:28:36
玄学提醒:若有余钱,不要不舍得,给自己添置这几样东西“养老”

玄学提醒:若有余钱,不要不舍得,给自己添置这几样东西“养老”

木言观
2026-01-23 06:16:13
中国联通推出“果粉・王卡”SIM卡套餐:80G流量+AppleCare

中国联通推出“果粉・王卡”SIM卡套餐:80G流量+AppleCare

IT之家
2026-01-23 18:21:28
开拓者127-110横扫热火!喜提4连胜,夏普27+7+4,杨瀚森时运不济

开拓者127-110横扫热火!喜提4连胜,夏普27+7+4,杨瀚森时运不济

小火箭爱体育
2026-01-23 13:39:08
央视曝光!真别再吃了!头皮发麻!市监局通报40批食品抽检不合格

央视曝光!真别再吃了!头皮发麻!市监局通报40批食品抽检不合格

云景侃记
2026-01-23 20:20:05
冠军有戏!U23亚洲杯决赛前,中国队意外获好消息,日本媒体确认

冠军有戏!U23亚洲杯决赛前,中国队意外获好消息,日本媒体确认

侃球熊弟
2026-01-23 03:30:03
中国驻日武官王庆简:大校军衔,每天定时开窗向日本传递绝密情报

中国驻日武官王庆简:大校军衔,每天定时开窗向日本传递绝密情报

万年历史老号
2026-01-20 05:40:03
23点00分,U23亚洲杯决赛:中国队vs日本队,中国夺冠概率预测!

23点00分,U23亚洲杯决赛:中国队vs日本队,中国夺冠概率预测!

林子说事
2026-01-23 11:19:56
贝克汉姆长子撕父母后首现身,搂住31岁妻子很依赖,“只剩她了”

贝克汉姆长子撕父母后首现身,搂住31岁妻子很依赖,“只剩她了”

译言
2026-01-23 06:38:54
2026-01-24 01:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14393文章数 66525关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

体育要闻

杜兰特鏖战44分钟累瘫 轰36+7却致命失误

娱乐要闻

演员孙涛澄清闫学晶言论 落泪维护妻子

财经要闻

2026年,消费没有新故事?

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

时尚
家居
亲子
房产
军事航空

今日热点:车银优代言广告被隐藏;《巅峰对决》主演担任米兰冬奥会火炬手……

家居要闻

在家度假 160平南洋混搭宅

亲子要闻

“一个桃就拐走了!”宝妈在水果店频频拒绝女儿,评论区太真实!

房产要闻

正式官宣!三亚又一所名校要来了!

军事要闻

美军首艘“高超导弹战舰”出海测试

无障碍浏览 进入关怀版