网易首页 > 网易号 > 正文 申请入驻

ServiceNow突破:AI推理实现类人高效智能思考能力提升突破

0
分享至


这项由ServiceNow研究院领导的研究发表于2024年的《神经信息处理系统大会》(NeurIPS),并已在arXiv平台发布,论文编号为arXiv:2604.02007v1。有兴趣深入了解的读者可以通过该论文编号查询完整论文。这项研究专门解决了一个困扰AI开发者的难题:如何让AI模型在解决复杂问题时既要足够聪明,又不能过度冗长地"思考"。

考虑这样一个场景:你正在做一道数学题,对于简单的加法运算,你会快速得出答案;但对于复杂的几何证明,你需要更多时间来思考和推理。然而,目前的AI模型却往往不知道何时该快速回答,何时该深度思考,经常会在简单问题上"想太多",浪费大量计算资源。ServiceNow研究院开发的Apriel-Reasoner模型就是为了解决这个问题而诞生的。

这个名为Apriel-Reasoner的AI模型可以说是AI推理领域的一次重要突破。研究团队在一个名为Apriel-Base的15亿参数基础模型上,通过一种称为"强化学习与可验证奖励"(RLVR)的训练方法,让模型学会了如何根据问题难度来调整思考的深度。这就好比训练一个学生,让他们学会在面对不同难度的考试题目时,合理分配时间和精力。

研究团队面临的第一个挑战是如何让AI模型同时掌握多个不同领域的知识。传统的做法通常是逐个训练不同领域,但这样做容易导致"学了新的忘了旧的"问题。研究团队创新性地采用了同时训练多个领域的方法,涵盖了数学推理、代码生成、指令遵循、逻辑谜题和函数调用五个重要领域。这种做法的挑战在于,不同领域的训练数据生成速度差异很大,就像不同学科的作业难易程度不同,学生完成的速度也不一样。

为了解决这个问题,研究团队开发了一种"自适应领域采样"机制。这个机制的工作原理类似于一个智能调度器,它会实时监控各个领域的训练进度,确保每个领域都能得到适当的关注。当某个领域的训练数据不足时,系统会自动增加该领域的采样权重;相反,如果某个领域的数据过多,系统会相应降低其权重。这种动态平衡机制确保了模型在各个领域都能获得均衡的学习机会。

更值得关注的是,研究团队还创新性地开发了一种"难度感知长度惩罚"机制。在传统的AI训练中,模型通常会受到固定的"啰嗦惩罚"——也就是说,如果模型回答过长,就会被扣分。但这种一刀切的做法并不合理,因为简单问题确实应该简洁回答,而复杂问题则需要更详细的推理过程。

这个新机制的工作原理相当巧妙:当模型面对一个问题时,系统会先让多个"AI大脑"同时尝试解决这个问题,然后根据成功率来判断问题的难度。如果大部分"AI大脑"都能轻松解决,说明这是个简单问题,此时模型如果回答过长就会受到严厉的"啰嗦惩罚"。相反,如果大部分"AI大脑"都觉得困难,系统就会放松长度限制,允许模型进行更深入的思考。

实验结果展现了Apriel-Reasoner的优异表现。研究团队在四个权威测试基准上对模型进行了全面评估,包括AIME 2025数学竞赛、GPQA研究生水平科学问答、MMLU-Pro多领域知识推理,以及LiveCodeBench编程能力测试。结果显示,Apriel-Reasoner不仅在准确性上超越了同等规模的其他AI模型,更重要的是,它生成的回答比其他模型短30%到50%。

具体来说,在AIME 2025数学竞赛中,Apriel-Reasoner达到了78.3%的准确率,显著超过了基础模型的73.3%,同时回答长度比竞争对手Nemotron-Cascade短了41%。在编程能力测试LiveCodeBench中,虽然准确率与Nemotron-Cascade相当,但Apriel-Reasoner生成的代码长度不到对手的一半,这意味着更快的执行速度和更低的计算成本。

研究团队还深入分析了模型回答变短的原因。他们发现,Apriel-Reasoner并没有减少推理步骤的数量,而是让每个推理步骤变得更加精炼。通过详细的步骤分析,研究人员发现经过强化学习训练的模型显著减少了"无意义重复"的内容,同时增加了高质量的非线性推理行为,比如验证结果、回溯错误路径、设定子目标等。这些改进使得模型的思考过程更加高效和结构化。

这项研究的实际意义远远超出了学术范围。在实际应用中,AI模型的推理成本直接影响服务提供商的运营费用和用户的使用体验。一个能够"聪明地偷懒"的AI模型,在保持高准确率的同时显著降低计算成本,这对于大规模AI服务的商业化部署具有重要价值。无论是在线教育平台的智能答疑系统,还是代码助手工具,都能从这种效率提升中受益。

更令人印象深刻的是,虽然Apriel-Reasoner在训练时只能生成最多16000个词汇的回答,但在实际测试中它能够很好地处理32000个词汇的长回答任务。这种"举一反三"的能力表明,模型真正学会了如何合理控制回答长度,而不是简单地记住了固定的长度限制。

研究团队还特别注重研究的可重现性。他们详细公开了所有训练配置、数据集选择和超参数设置,甚至连训练过程中的各种技术细节都毫无保留地分享。这种开放态度为其他研究者提供了宝贵的参考,有助于推动整个AI推理领域的发展。

值得注意的是,这项研究采用的PipelineRL训练系统允许模型在生成回答的同时进行学习更新,这种"边做边学"的方式大大提高了训练效率。就像一个学生在做练习题的同时,老师在旁边实时给出指导和纠正,使学习过程更加高效。

从技术角度来看,Apriel-Reasoner使用的GSPO(群体序列策略优化)算法解决了传统强化学习算法的一个关键问题:如何在序列级别的奖励和词汇级别的优化之间建立有效连接。传统算法往往在这个层面转换上出现问题,导致训练不稳定。GSPO通过在序列层面计算重要性权重,有效解决了这个技术难题。

这项研究的成功也验证了多领域联合训练的有效性。研究团队发现,相比于只训练数学和编程两个领域,包含所有五个领域的训练方案在各个测试基准上都表现更好。这说明不同领域的知识之间存在正向的相互促进作用,就像学习多种技能能够相互启发,提升整体能力一样。

说到底,Apriel-Reasoner的成功在于它找到了AI推理的"黄金平衡点"——既要保证思考的深度和准确性,又要避免不必要的冗长。这种平衡不仅提升了模型的实用性,也为未来的AI系统设计提供了重要启示。随着AI技术在各行各业的深入应用,这种既聪明又高效的AI推理能力将成为决定AI系统实用价值的关键因素。

对于普通用户而言,这意味着未来的AI助手将能够更快地给出高质量的回答,无论是解答学习问题、协助编程工作,还是处理日常事务,都能在保证准确性的前提下显著提升响应速度。这种技术进步最终将转化为更好的用户体验和更低的使用成本,让高质量的AI服务变得更加普及和实用。

Q&A

Q1:Apriel-Reasoner与其他AI推理模型的主要区别是什么?

A:Apriel-Reasoner的最大特点是能够根据问题难度智能调节回答长度,就像人类在面对不同难度问题时会调整思考深度一样。它使用"难度感知长度惩罚"机制,让模型在简单问题上给出简洁回答,在复杂问题上进行深入推理,而不是像其他模型那样对所有问题都采用固定的回答模式。

Q2:这个AI模型如何判断问题的难度?

A:系统会让多个AI同时尝试解决同一个问题,然后根据成功率来判断难度。如果大部分AI都能轻松解决,说明问题简单,此时模型会被要求给出简洁回答。如果大部分AI都觉得困难,系统就会允许模型进行更详细的推理,类似于考试中根据题目难度合理分配时间。

Q3:Apriel-Reasoner在实际应用中有什么优势?

A:最直接的优势是在保持高准确率的同时显著降低计算成本。实验显示它的回答比同类模型短30-50%,这意味着更快的响应速度和更低的运行费用。对用户来说就是AI助手回答更快更精准,对服务商来说则是运营成本大幅降低,最终实现双赢。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
东航一航班遇强烈气流备降厦门,后在南昌上空盘旋数圈降落,乘客:剧烈颠簸,吓得给对象留言,感谢机长带我平安回家

东航一航班遇强烈气流备降厦门,后在南昌上空盘旋数圈降落,乘客:剧烈颠簸,吓得给对象留言,感谢机长带我平安回家

极目新闻
2026-04-10 15:54:54
全红婵遭霸凌升级,4年没人阻止,2位省队友被揪,难怪她想离队

全红婵遭霸凌升级,4年没人阻止,2位省队友被揪,难怪她想离队

番外行
2026-04-10 12:52:31
美国议员自曝患癌:寿命或只剩3个月,现在最放不下三个孩子

美国议员自曝患癌:寿命或只剩3个月,现在最放不下三个孩子

芭比衣橱
2026-04-10 18:10:39
李在明手段果然够狠,尹锡悦已判无期,金建希改判69岁出狱?

李在明手段果然够狠,尹锡悦已判无期,金建希改判69岁出狱?

南宗历史
2026-04-11 01:07:17
职业生涯第300胜,阿尔卡拉斯2-0横扫布勃利克,晋级蒙特卡洛四强

职业生涯第300胜,阿尔卡拉斯2-0横扫布勃利克,晋级蒙特卡洛四强

懂球帝
2026-04-10 23:36:07
今日最惨股,股价已从15跌到2.4,两个一字跌停后还有180万封单!

今日最惨股,股价已从15跌到2.4,两个一字跌停后还有180万封单!

丁丁鲤史纪
2026-04-10 15:38:20
“解冻是真实的”!中方证实:5年多来首次访华

“解冻是真实的”!中方证实:5年多来首次访华

第一财经资讯
2026-04-09 14:49:20
王楚然这身太敢穿,白外套配紧身裤,这腰臀比谁顶得住?

王楚然这身太敢穿,白外套配紧身裤,这腰臀比谁顶得住?

娱乐领航家
2026-04-09 00:00:03
丈夫年薪75万跟我谈AA,我同意后他接公婆小叔子来住,我天天点外卖

丈夫年薪75万跟我谈AA,我同意后他接公婆小叔子来住,我天天点外卖

荷兰豆爱健康
2026-04-11 01:02:09
不留骨灰,不设墓地,不立碑,59岁王志文对后事的安排让人深思

不留骨灰,不设墓地,不立碑,59岁王志文对后事的安排让人深思

北纬的咖啡豆
2026-04-08 14:48:50
1980年,66军炮兵团“叛乱”,邓小平大惊:华国锋不宜留在领导层

1980年,66军炮兵团“叛乱”,邓小平大惊:华国锋不宜留在领导层

帝哥说史
2026-04-10 06:30:03
美国绕月飞船返回:遭受2800℃灼烧,隔热罩最厚仅7.6厘米!

美国绕月飞船返回:遭受2800℃灼烧,隔热罩最厚仅7.6厘米!

火星一号
2026-04-11 00:58:23
以色列一夜击杀200名真主党武装 真主党被曝请求停火

以色列一夜击杀200名真主党武装 真主党被曝请求停火

桂系007
2026-04-09 22:26:13
CBA11队正式锁定季后赛!6队争第3,6队争第12,广东赛程轻松

CBA11队正式锁定季后赛!6队争第3,6队争第12,广东赛程轻松

老吴说体育
2026-04-10 23:34:42
CBA战报:上海119-116险胜福建取CBA18连胜,昆汀-皮特森空砍44分

CBA战报:上海119-116险胜福建取CBA18连胜,昆汀-皮特森空砍44分

懂球帝
2026-04-10 21:50:09
单亲妈妈不停晒13岁女儿,希望能给孩子找个好的后爸

单亲妈妈不停晒13岁女儿,希望能给孩子找个好的后爸

映射生活的身影
2026-04-09 20:09:42
马伊琍公布喜讯不到24小时,文章高调求"复合" 姚笛才是笑到最后

马伊琍公布喜讯不到24小时,文章高调求"复合" 姚笛才是笑到最后

小椰的奶奶
2026-04-11 00:25:15
离婚率 58% 创历史新高,中国式婚姻正在经历前所未有的冲击

离婚率 58% 创历史新高,中国式婚姻正在经历前所未有的冲击

网络易不易
2026-03-26 10:24:43
西汉姆换帅玩砸:新锋线0进球,保级生死战押宝4-4-2

西汉姆换帅玩砸:新锋线0进球,保级生死战押宝4-4-2

赛场速报局
2026-04-11 02:14:00
八零后晒存款540w每天很焦虑!网友热议:中年危机原来只是我自己

八零后晒存款540w每天很焦虑!网友热议:中年危机原来只是我自己

另子维爱读史
2026-04-10 09:46:26
2026-04-11 02:55:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7949文章数 560关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

李强主持召开经济形势专家和企业家座谈会

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

健康
旅游
教育
房产
手机

干细胞抗衰4大误区,90%的人都中招

旅游要闻

周末来这里!足不出沪体验首尔韩屋风情

教育要闻

2026年最具“性价比”的4个专业,本科就业率高,考研容易上岸!

房产要闻

28条新规落地!好房子,终于有了“广州标准”!

手机要闻

OPPO Find X9s Pro配色公布,全面登陆“锁屏岛”

无障碍浏览 进入关怀版