ServiceNow突破：AI推理实现类人高效智能思考能力提升突破|算法|编程|原理|数学

ServiceNow突破：AI推理实现类人高效智能思考能力提升突破

2026-04-10 20:34:41　来源: 科技行者

天津举报

分享至

这项由ServiceNow研究院领导的研究发表于2024年的《神经信息处理系统大会》(NeurIPS)，并已在arXiv平台发布，论文编号为arXiv:2604.02007v1。有兴趣深入了解的读者可以通过该论文编号查询完整论文。这项研究专门解决了一个困扰AI开发者的难题：如何让AI模型在解决复杂问题时既要足够聪明，又不能过度冗长地"思考"。

考虑这样一个场景：你正在做一道数学题，对于简单的加法运算，你会快速得出答案；但对于复杂的几何证明，你需要更多时间来思考和推理。然而，目前的AI模型却往往不知道何时该快速回答，何时该深度思考，经常会在简单问题上"想太多"，浪费大量计算资源。ServiceNow研究院开发的Apriel-Reasoner模型就是为了解决这个问题而诞生的。

这个名为Apriel-Reasoner的AI模型可以说是AI推理领域的一次重要突破。研究团队在一个名为Apriel-Base的15亿参数基础模型上，通过一种称为"强化学习与可验证奖励"（RLVR）的训练方法，让模型学会了如何根据问题难度来调整思考的深度。这就好比训练一个学生，让他们学会在面对不同难度的考试题目时，合理分配时间和精力。

研究团队面临的第一个挑战是如何让AI模型同时掌握多个不同领域的知识。传统的做法通常是逐个训练不同领域，但这样做容易导致"学了新的忘了旧的"问题。研究团队创新性地采用了同时训练多个领域的方法，涵盖了数学推理、代码生成、指令遵循、逻辑谜题和函数调用五个重要领域。这种做法的挑战在于，不同领域的训练数据生成速度差异很大，就像不同学科的作业难易程度不同，学生完成的速度也不一样。

为了解决这个问题，研究团队开发了一种"自适应领域采样"机制。这个机制的工作原理类似于一个智能调度器，它会实时监控各个领域的训练进度，确保每个领域都能得到适当的关注。当某个领域的训练数据不足时，系统会自动增加该领域的采样权重；相反，如果某个领域的数据过多，系统会相应降低其权重。这种动态平衡机制确保了模型在各个领域都能获得均衡的学习机会。

更值得关注的是，研究团队还创新性地开发了一种"难度感知长度惩罚"机制。在传统的AI训练中，模型通常会受到固定的"啰嗦惩罚"——也就是说，如果模型回答过长，就会被扣分。但这种一刀切的做法并不合理，因为简单问题确实应该简洁回答，而复杂问题则需要更详细的推理过程。

这个新机制的工作原理相当巧妙：当模型面对一个问题时，系统会先让多个"AI大脑"同时尝试解决这个问题，然后根据成功率来判断问题的难度。如果大部分"AI大脑"都能轻松解决，说明这是个简单问题，此时模型如果回答过长就会受到严厉的"啰嗦惩罚"。相反，如果大部分"AI大脑"都觉得困难，系统就会放松长度限制，允许模型进行更深入的思考。

实验结果展现了Apriel-Reasoner的优异表现。研究团队在四个权威测试基准上对模型进行了全面评估，包括AIME 2025数学竞赛、GPQA研究生水平科学问答、MMLU-Pro多领域知识推理，以及LiveCodeBench编程能力测试。结果显示，Apriel-Reasoner不仅在准确性上超越了同等规模的其他AI模型，更重要的是，它生成的回答比其他模型短30%到50%。

具体来说，在AIME 2025数学竞赛中，Apriel-Reasoner达到了78.3%的准确率，显著超过了基础模型的73.3%，同时回答长度比竞争对手Nemotron-Cascade短了41%。在编程能力测试LiveCodeBench中，虽然准确率与Nemotron-Cascade相当，但Apriel-Reasoner生成的代码长度不到对手的一半，这意味着更快的执行速度和更低的计算成本。

研究团队还深入分析了模型回答变短的原因。他们发现，Apriel-Reasoner并没有减少推理步骤的数量，而是让每个推理步骤变得更加精炼。通过详细的步骤分析，研究人员发现经过强化学习训练的模型显著减少了"无意义重复"的内容，同时增加了高质量的非线性推理行为，比如验证结果、回溯错误路径、设定子目标等。这些改进使得模型的思考过程更加高效和结构化。

这项研究的实际意义远远超出了学术范围。在实际应用中，AI模型的推理成本直接影响服务提供商的运营费用和用户的使用体验。一个能够"聪明地偷懒"的AI模型，在保持高准确率的同时显著降低计算成本，这对于大规模AI服务的商业化部署具有重要价值。无论是在线教育平台的智能答疑系统，还是代码助手工具，都能从这种效率提升中受益。

更令人印象深刻的是，虽然Apriel-Reasoner在训练时只能生成最多16000个词汇的回答，但在实际测试中它能够很好地处理32000个词汇的长回答任务。这种"举一反三"的能力表明，模型真正学会了如何合理控制回答长度，而不是简单地记住了固定的长度限制。

研究团队还特别注重研究的可重现性。他们详细公开了所有训练配置、数据集选择和超参数设置，甚至连训练过程中的各种技术细节都毫无保留地分享。这种开放态度为其他研究者提供了宝贵的参考，有助于推动整个AI推理领域的发展。

值得注意的是，这项研究采用的PipelineRL训练系统允许模型在生成回答的同时进行学习更新，这种"边做边学"的方式大大提高了训练效率。就像一个学生在做练习题的同时，老师在旁边实时给出指导和纠正，使学习过程更加高效。

从技术角度来看，Apriel-Reasoner使用的GSPO（群体序列策略优化）算法解决了传统强化学习算法的一个关键问题：如何在序列级别的奖励和词汇级别的优化之间建立有效连接。传统算法往往在这个层面转换上出现问题，导致训练不稳定。GSPO通过在序列层面计算重要性权重，有效解决了这个技术难题。

这项研究的成功也验证了多领域联合训练的有效性。研究团队发现，相比于只训练数学和编程两个领域，包含所有五个领域的训练方案在各个测试基准上都表现更好。这说明不同领域的知识之间存在正向的相互促进作用，就像学习多种技能能够相互启发，提升整体能力一样。

说到底，Apriel-Reasoner的成功在于它找到了AI推理的"黄金平衡点"——既要保证思考的深度和准确性，又要避免不必要的冗长。这种平衡不仅提升了模型的实用性，也为未来的AI系统设计提供了重要启示。随着AI技术在各行各业的深入应用，这种既聪明又高效的AI推理能力将成为决定AI系统实用价值的关键因素。

对于普通用户而言，这意味着未来的AI助手将能够更快地给出高质量的回答，无论是解答学习问题、协助编程工作，还是处理日常事务，都能在保证准确性的前提下显著提升响应速度。这种技术进步最终将转化为更好的用户体验和更低的使用成本，让高质量的AI服务变得更加普及和实用。

Q&A

Q1：Apriel-Reasoner与其他AI推理模型的主要区别是什么？

A：Apriel-Reasoner的最大特点是能够根据问题难度智能调节回答长度，就像人类在面对不同难度问题时会调整思考深度一样。它使用"难度感知长度惩罚"机制，让模型在简单问题上给出简洁回答，在复杂问题上进行深入推理，而不是像其他模型那样对所有问题都采用固定的回答模式。

Q2：这个AI模型如何判断问题的难度？

A：系统会让多个AI同时尝试解决同一个问题，然后根据成功率来判断难度。如果大部分AI都能轻松解决，说明问题简单，此时模型会被要求给出简洁回答。如果大部分AI都觉得困难，系统就会允许模型进行更详细的推理，类似于考试中根据题目难度合理分配时间。

Q3：Apriel-Reasoner在实际应用中有什么优势？

A：最直接的优势是在保持高准确率的同时显著降低计算成本。实验显示它的回答比同类模型短30-50%，这意味着更快的响应速度和更低的运行费用。对用户来说就是AI助手回答更快更精准，对服务商来说则是运营成本大幅降低，最终实现双赢。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.