网易首页 > 网易号 > 正文 申请入驻

额外训练步骤如何释放AI的推理能力

0
分享至


多年来,构建强大大语言模型的基本方法十分清晰:先在海量文本上训练模型,再通过强化学习让其以有益且拟人的方式进行响应。在某个阶段,研究人员在训练流程中加入了一个以数学、代码和科学为重点的中间训练阶段,大语言模型的推理能力随之实现了飞跃式提升。

这一阶段现在被称为"中间训练"。如今,它已成为训练推理模型的常规步骤,尽管其机制仍存在一定神秘性。推理模型借助这一步骤可完成诸如排查复杂代码库、长篇合同或财务报表中错误等任务。IBM近期发布的一项研究首次对开源大语言模型中的中间训练进行了大规模、系统性的深入分析,揭示了中间训练高效性背后的原因。

通过超过500项对照实验,IBM研究人员发现,中间训练可将不同规模和架构模型的整体推理能力提升3至4倍,同时保留预训练阶段积累的知识。而跳过这一步骤、仅在后训练阶段通过强化学习学习相同数学和科学知识的模型,性能提升则十分有限。

"中间训练与强化学习并不是可互换的训练阶段,"该研究的第一作者、IBM研究员Bharat Runwal说道,他所在的团队负责IBM Granite系列模型的研发。"两者的运作机制存在本质差异,各自能够实现对方无法替代的效果。"

Runwal与同事对来自四个模型系列的开源基础模型进行了比较,涵盖IBM Granite、Mistral、Meta的LLaMA以及NVIDIA的Nemotron-H模型,参数规模从30亿到240亿不等。研究团队还测试了传统Transformer架构,以及将Transformer注意力机制与新型循环式处理相结合的混合架构设计。评测基准包括难度极高的谷歌防证明问答(GPQA)Diamond题库和美国数学邀请赛(AIME),两者分别考察博士级别的科学与数学能力。在六项推理基准测试中,采用最优中间训练流程的模型平均得分比通过强化学习训练的同数据模型高出29至42分。

研究人员已将论文中描述的中间训练方案和流程应用于即将发布的下一代IBM Granite模型,并已将该流程开源供社区使用。论文公开后,在Twitter上引发了广泛关注。Netflix员工研究科学家、Deep(Learning)Focus博客作者Cameron Wolfe写道:"文中包含大量正确实施中间训练的实用技巧,对所有希望将开源模型适配到专业应用场景的人来说都是一篇值得精读的好文章。"

中间训练的概念最早可追溯至2024年,但彼时并未以此命名。部分模型开发者在预训练结束时加入"冷却"步骤,用于扩展模型的上下文长度和工作记忆,使其在单次提示中能处理更多信息;另一些开发者则在后训练阶段增加数据退火步骤,以便将高质量领域知识融入模型。

现代意义上的中间训练同时涵盖数据退火和上下文长度扩展两个环节。顾名思义,它处于预训练与后训练之间:预训练阶段,模型消化数十亿乃至数万亿个词语及词语片段(即Token);后训练阶段,模型行为则由高质量领域专属数据和人类交互来塑造。

研究人员从数学题目、编程挑战和科学推理数据集中获取中间训练数据,并将预算控制在270亿Token以内——相比可达15万亿Token以上的预训练规模,这一体量相当精简。研究目标在于确定理想的数据配比、最佳应用时机,以及中间训练是否会对后续的强化学习环节产生促进或阻碍作用。研究发现,数据配比对中间训练模型尤为关键。将中间训练的数据配方从仅包含数学和代码扩展为涵盖数学、代码与科学,可使整体推理性能平均提升3至6分;而在强化学习阶段进行同样调整,效果则微乎其微。

这一差异在科学推理方面尤为突出。经过科学数据中间训练的模型,在GPQA Diamond基准测试中比使用相同数据微调的模型高出17至28分。研究结果表明,科学推理能力必须在中间训练阶段植入,才能在后续阶段得到充分发挥。

中间训练似乎还改变了模型处理复杂数学问题的方式。预训练模型在MATH500测试中倾向于给出简短答案,而经过中间训练后,模型开始逐步展示解题过程,以详细步骤作出回应。不出所料,其准确率也随之大幅跃升——Granite-3.3-8B在经历中间训练和强化学习后,准确率从16.9%提升至79.5%。"中间训练教会模型的是推理,而非仅仅作答,"参与该研究的IBM Granite研究员Ashish Agrawal如此说道。

模型 | 阶段 | 通过率 | 响应长度

Granite-3.3-8B | 基础 | 16.9% | 120 Token

Granite-3.3-8B | 中间训练 | 75.5% | 2,254 Token

Granite-3.3-8B | 强化学习 | 79.5% | 1,700 Token

LLaMA-3.1-8B | 基础 | 2.6% | 158 Token

LLaMA-3.1-8B | 中间训练 | 43.1% | 1,052 Token

LLaMA-3.1-8B | 强化学习 | 64.6% | 1,188 Token

Nemotron-H-8B | 基础 | 66.6% | 452 Token

Nemotron-H-8B | 中间训练 | 61.6% | 1,928 Token

Nemotron-H-8B | 强化学习 | 83.0% | 1,780 Token

此外,有证据表明,中间训练有助于模型在强化学习阶段突破自身能力上限。Granite-3.3-8B在强化学习训练过程中逐步学会了解决起初无法攻克的复杂数学和编程问题,这表明强化学习能够激活经过恰当中间训练的模型中潜藏的新能力。

研究人员还发现,中间训练在模型完成长序列文本处理训练之后实施效果最佳,而非在预训练的早期阶段。由于大多数开源基础模型在发布前都会经历长上下文扩展,中间训练自然成为开发者的合理后续步骤。

如果说这篇论文有一个核心结论,那就是:不应跳过中间训练。强化学习无法替代中间训练,但恰当的中间训练能够放大强化学习的效果。"如果你想构建一个高效的推理模型,就必须把中间训练做好,"Runwal说道。

通过深入研究,研究人员揭示了其中的原理。借助消融研究——一种类似大语言模型"核磁共振"的分析方法——研究人员探究了中间训练和强化学习如何改变模型的结构与内部表征。他们发现,两个阶段以截然不同但相互互补的机制发挥作用:一个以大刀阔斧的方式完善模型,另一个则进行精细调整。

中间训练会重构模型超过90%的权重,且这些变化广泛分布于模型的各个层和组件之中。相比之下,强化学习仅修改约5%的参数,且这些变化集中在训练开始后的200至400步内。无论中间训练是否在前,强化学习所施加的权重变化几乎相同。

研究人员运用一种名为中心核对齐的技术,分析模型在训练流程各阶段的信息表征相似性,得出了类似的结论。结果显示,强化学习完成后,模型的内部表征与中间训练检查点高度相似。强化学习似乎是在中间训练所构建的空间内运作,在不改变中间训练所确立的表征几何结构的前提下优化模型。

如今,众多大语言模型已突破对话场景,走向更广阔的现实应用——它们能够调用API、执行真实任务。业界正竞相探索进一步提升推理能力的新方法。然而,该研究表明,若缺乏扎实的中间训练基础,这些技术手段的效果可能将大打折扣。

Q&A

Q1:IBM研究中所说的"中间训练"是什么?它和普通训练有什么区别?

A:中间训练是位于预训练和后训练之间的一个额外训练阶段,主要聚焦于数学、代码和科学推理数据集。与预训练(让模型消化海量文本)和后训练(通过强化学习塑造行为)不同,中间训练通过重构模型超过90%的权重来大幅提升推理能力,为后续强化学习奠定基础。IBM实验表明,加入中间训练可将模型推理能力提升3至4倍。

Q2:中间训练和强化学习能互相替代吗?

A:不能互相替代。IBM的研究明确指出,中间训练与强化学习的运作机制存在本质差异。中间训练会重构模型超过90%的权重,从根本上改变模型的推理结构;而强化学习仅修改约5%的参数,是在中间训练所建立的基础上进行精细调整。跳过中间训练、仅靠强化学习训练相同数据的模型,性能提升非常有限,无法达到相同效果。

Q3:IBM Granite模型在中间训练后,准确率提升了多少?

A:以Granite-3.3-8B为例,在MATH500基准测试中,该模型在基础预训练阶段的准确率仅为16.9%,经过中间训练后跃升至75.5%,再经强化学习后进一步提升至79.5%,总体准确率提升幅度高达约62.6个百分点。响应长度也从120个Token大幅增加至约1,700至2,254个Token,表明模型开始逐步展示完整的推理过程,而非仅给出简短答案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西伯利亚:吃不完的鹿肉,收不完的粮;砍不完的森林,挖不完的矿

西伯利亚:吃不完的鹿肉,收不完的粮;砍不完的森林,挖不完的矿

小莜读史
2026-04-17 20:53:45
复杂的黎巴嫩,走投无路的真主党

复杂的黎巴嫩,走投无路的真主党

寰宇大观察
2026-04-17 17:36:11
医生发现:吃一根香菜,就等于喝了一杯降糖茶,真的假的?

医生发现:吃一根香菜,就等于喝了一杯降糖茶,真的假的?

清欢百味
2026-04-19 17:38:59
谁能想到36岁的毛晓彤,笑起来还像个甜妹一样。

谁能想到36岁的毛晓彤,笑起来还像个甜妹一样。

东方不败然多多
2026-04-19 15:35:03
“雷军被堵车里维权”真相来了!小米高管放话:绝不放任

“雷军被堵车里维权”真相来了!小米高管放话:绝不放任

雷科技
2026-04-19 22:59:40
45岁李尚宝家中离世,死因未明,一家四口皆已离世,一生未婚

45岁李尚宝家中离世,死因未明,一家四口皆已离世,一生未婚

陈意小可爱
2026-03-31 09:52:46
别人卡八他卡四,世界第三兹维列夫已暌违冠军一年有余!

别人卡八他卡四,世界第三兹维列夫已暌违冠军一年有余!

网球之家
2026-04-19 22:43:12
超百万兵力集结,美伊总决战在即?中国态度已明确,和美奉陪到底

超百万兵力集结,美伊总决战在即?中国态度已明确,和美奉陪到底

无情有思ss
2026-04-17 01:20:47
爱沙尼亚铁了心拒绝斯洛伐克总理过境,菲科莫斯科之旅再遭断航

爱沙尼亚铁了心拒绝斯洛伐克总理过境,菲科莫斯科之旅再遭断航

桂系007
2026-04-19 23:52:15
男子网上偶遇多年前婚礼后消失的新娘 讨还钱款不成将其杀害 一审被判死刑

男子网上偶遇多年前婚礼后消失的新娘 讨还钱款不成将其杀害 一审被判死刑

红星新闻
2024-08-04 15:19:07
603272,致歉!或被“*ST”!

603272,致歉!或被“*ST”!

证券时报e公司
2026-04-19 16:58:40
“伤害性不大,侮辱性极强”!赛那稳坐MPV冠军,腾势D9跌至第七

“伤害性不大,侮辱性极强”!赛那稳坐MPV冠军,腾势D9跌至第七

小李子体育
2026-04-19 01:51:05
雅阁、飞度的老家没了!广本黄埔工厂6月关门,一个时代宣告结束

雅阁、飞度的老家没了!广本黄埔工厂6月关门,一个时代宣告结束

周哥一影视
2026-04-19 17:03:00
毫不掩饰!欧盟化工巨头竟联手“阻击”中企

毫不掩饰!欧盟化工巨头竟联手“阻击”中企

观察者网
2026-04-19 21:05:34
香港电影金像奖今晚揭晓!舒淇抢3奖成焦点,古天乐两片入围影帝

香港电影金像奖今晚揭晓!舒淇抢3奖成焦点,古天乐两片入围影帝

小丸说故事
2026-04-19 14:32:28
仅112MB!30年死磕:一群极客手搓出开源Windows

仅112MB!30年死磕:一群极客手搓出开源Windows

侃故事的阿庆
2026-04-19 17:04:45
iPhone NFC,限制解除!

iPhone NFC,限制解除!

果粉俱乐部
2026-04-17 13:10:03
鸿蒙智行旗舰MPV智界V9内饰细节曝光,4月22日开启预订

鸿蒙智行旗舰MPV智界V9内饰细节曝光,4月22日开启预订

IT之家
2026-04-19 12:08:46
旅游路上怎么全是大妈?大爷都去哪儿了?网友分析让人爆笑到飙泪

旅游路上怎么全是大妈?大爷都去哪儿了?网友分析让人爆笑到飙泪

西楼知趣杂谈
2026-04-18 15:31:29
今夜,大反转!石油,又爆了

今夜,大反转!石油,又爆了

中国基金报
2026-04-19 00:15:37
2026-04-20 01:04:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17789文章数 49700关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

本地
旅游
亲子
房产
公开课

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

旅游要闻

宝藏小城之春|不去江南,来章丘!这里有泉、有词、有烤肉

亲子要闻

孩子总打喷嚏、起疹子,时过敏吗?

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版