网易首页 > 网易号 > 正文 申请入驻

ServiceNow团队如何让15B参数的小模型追平千亿级大模型?

0
分享至


这项由ServiceNow公司SLAM实验室团队完成的研究发表于2025年1月,研究论文编号为arXiv:2510.01141v1。有兴趣深入了解技术细节的读者可以通过该编号查询完整论文。

在人工智能发展的浪潮中,一个令人困扰的问题始终存在:为什么拥有最强AI能力的模型往往需要数千亿甚至万亿参数,消耗巨大的计算资源?这就好比要做一道简单的家常菜,却需要动用整个酒店厨房的设备。对于那些资源有限的组织来说,这种"大炮打蚊子"的方式显然不现实。

ServiceNow的研究团队决定挑战这个看似不可能的任务:能否用一个相对"小巧"的15亿参数模型,达到那些千亿参数巨无霸的性能水平?这就像是要用一辆小型轿车跑出跑车的速度,听起来天方夜谭,但他们真的做到了。

研究团队开发的Apriel-1.5-15B-Thinker模型在人工智能评测基准上获得了52分的成绩,这个分数与需要大量计算资源的DeepSeek-R1-0528模型完全相同。更令人惊讶的是,在十项图像理解测试中,这个小模型的表现平均只比谷歌的Gemini-2.5-Flash和Claude Sonnet-3.7落后5分。考虑到后两者的规模和资源投入,这个差距几乎可以忽略不计。

整个研究的核心思想可以用烹饪来类比:与其简单地增加食材分量(参数数量),不如精心设计烹饪流程(训练方法)。研究团队将训练过程设计成三个精心安排的阶段,就像制作一道精品菜肴需要经历前期准备、主要烹饪和最后调味三个步骤。

首先是"扩容改造"阶段。研究团队以Pixtral-12B作为基础模型,这就像选择了一个性能还不错的基础厨具。但是要处理更复杂的任务,他们需要给这个"厨具"增加一些"功能模块"。具体来说,他们将模型的隐藏层从40层增加到48层,就像给厨房增加了更多的操作台面。这种"深度扩展"的方法比从零开始训练一个大模型要经济得多,就像在现有厨房基础上扩建,而不是推倒重建。

第二阶段是"持续预训练",这个阶段又分为两个子步骤。第一个子步骤像是让"厨师"(模型)学习基础技能。研究团队准备了一个包含50%文本内容的训练菜单,涵盖数学科学推理、编程任务和常识知识;20%的内容用于复习之前学过的内容;剩下30%则是多模态内容,包括文档理解、图表分析、图像描述等技能。这就像让厨师既要学会处理各种食材,也要掌握看菜谱、理解顾客需求等综合能力。

第二个子步骤更像是"专业技能强化训练"。研究团队专门针对视觉推理能力进行了深度优化。他们设计了一套巧妙的合成数据生成系统,就像为厨师准备了各种特殊的练习题。这些练习包括图像重建(学会整体观察和细节把握)、视觉匹配(提高对应和辨别能力)、物体检测(增强定位和识别能力)、以及计数任务(训练精确观察特定元素的能力)。

为了验证这个专业强化训练的效果,研究团队做了一个对照实验。他们用第一阶段结束的模型和第二阶段结束的模型分别进行了小规模的监督训练,结果发现第二阶段的模型在多个视觉任务上都有显著提升。比如在MathVerse视觉主导任务上提升了9.65分,在CharXiv描述性任务上提升了5.98分,这证明了专业强化训练的价值。

第三阶段是"监督精调",这相当于最后的"调味"过程。研究团队面临一个现实约束:他们没有足够的计算资源来训练一个更大的"教师"模型,也无法进行大规模的后训练优化。因此,他们选择了一条更加务实的道路:精心策划高质量的训练数据,并使用开源模型作为"指导老师"。

在数据准备上,研究团队采用了严格的多步骤筛选流程。首先进行彻底的去重复处理以增强数据多样性,然后过滤掉不安全或不合适的内容,接着使用启发式方法移除低质量样本。在这个基础清理之后,他们使用语言模型评判和基于执行的验证来确认数据正确性,并通过拒绝采样丢弃不正确或低质量的指令-回答对。

最终的训练数据集包含了数百万个高质量的指令-回答对,每个回答都包含明确的推理步骤,就像是详细的解题过程。这些数据涵盖了数学推理、编程、科学推理、工具调用、通用推理、知识密集型任务、对话、指令跟随、安全性、内容审核和鲁棒性等多个领域。

训练过程分为三个小步骤:首先进行4轮基础精调,使用32768的序列长度;然后进行两个较小的精调实验,一个使用25%的分层数据集再训练4轮,另一个专门处理更长序列的数据。最后,研究团队将这两个小实验的结果进行权重平均,产生最终的模型。

那么这个"小而精"的模型表现如何呢?在文本推理能力测试中,Apriel-1.5-15B-Thinker在人工智能分析智能指数上获得了52分,与DeepSeek-R1-0528持平,超过了许多更大的开源模型,如Llama Nemotron Super 49B v1.5(45分)和gpt-oss-20B(43分)。

更详细地看各项测试结果,这个模型在AIME2025数学竞赛中达到了87%的准确率,在IF-Bench指令跟随测试中得到62%,在τ?-Bench电信领域专业测试中获得68%。这些成绩充分展示了模型在数学推理、指令理解和专业领域问题解决方面的强大能力。

在多模态能力测试中,虽然受到参数规模限制,但Apriel-1.5-15B-Thinker仍然表现出色。在MMMU多模态理解基准测试中获得70.2%的成绩,MathVista数学视觉任务得到75.5%,CharXiv图表理解达到88.2%。特别值得注意的是,在文档理解和图表分析任务上,这个小模型展现出了与大型专有模型相当的能力。

然而,模型也存在一些局限性。在纯视觉推理任务上,比如MMMU-PRO视觉部分,模型得分48.21%,显示出在处理完全依赖视觉信息的复杂推理任务时还有提升空间。研究团队发现了一个有趣的规律:模型在结合视觉和文本信息的任务上表现更好,而在纯视觉推理上相对较弱。

这种性能差异反映了一个重要现象:CharXiv描述性任务(88.20%)和CharXiv推理任务(50.10%)之间存在38.1个百分点的差距,这说明模型在表面文档理解和深层上下文推理之间还存在能力差异。

研究团队的成功秘诀可以总结为几个关键原则。首先是"精准扩容而非盲目放大"。他们通过增加模型深度而非宽度的方式来提升容量,这种方法在保持计算效率的同时增强了推理能力。其次是"分阶段渐进式训练"。就像学习一门技能需要从基础到高级循序渐进一样,模型训练也采用了从基础能力建立到专业技能强化的渐进策略。

第三个关键是"数据质量优于数量"。面对计算资源限制,研究团队选择了精心筛选和处理高质量数据,而非简单地增加数据量。这就像是选择新鲜优质食材制作精品菜肴,而不是用大量普通食材做大锅饭。

最后是"合成数据的巧妙运用"。研究团队开发了针对性的合成数据生成策略,专门训练模型的特定能力,这种方法既经济又高效。

这项研究的意义远超技术层面。它证明了在AI发展中,创新的训练方法和精心设计的数据策略可以在很大程度上弥补计算资源的不足。对于那些无法负担大规模计算资源的组织来说,这提供了一条可行的替代路径。

更重要的是,这种"小而精"的模型更适合实际部署应用。它可以在单个高端GPU上运行,大大降低了部署成本和技术门槛。这意味着更多的公司和研究机构可以使用接近前沿水平的AI技术,而无需投资昂贵的基础设施。

当然,这项研究也揭示了一些有趣的发展方向。研究团队指出,虽然当前模型在文本推理方面已经达到了很高水平,但在多模态能力特别是纯视觉推理方面还有很大提升空间。未来的工作将更多关注多模态能力的全面发展和智能体能力的增强。

从更广阔的视角来看,这项研究代表了AI发展思路的一个重要转变:从单纯追求规模到追求效率和实用性。就像汽车工业从早期的"越大越好"逐渐发展到现在注重燃油效率和环保性能一样,AI模型的发展也开始更多考虑资源效率和实际可用性。

说到底,ServiceNow团队的这项工作向我们展示了一个振奋人心的可能性:通过巧妙的工程设计和精心的训练策略,我们可以用相对有限的资源达到令人惊讶的效果。这不仅为资源受限的组织提供了希望,也为整个AI行业指明了一个更加可持续和包容的发展方向。

归根结底,这项研究告诉我们,在AI的世界里,智慧的设计往往比蛮力更重要。就像一位技艺精湛的厨师可以用简单的食材做出美味佳肴一样,巧妙的训练方法可以让小模型发挥出大模型的威力。这或许就是人工智能未来发展的一个重要启示:效率、创新和可及性,比单纯的规模更有价值。

Q&A

Q1:Apriel-1.5-15B-Thinker与其他大模型相比有什么优势?

A:Apriel-1.5-15B-Thinker最大的优势是用15亿参数实现了与千亿参数模型相当的性能,在人工智能评测中获得52分,与DeepSeek-R1-0528持平。它可以在单个GPU上运行,大大降低了部署成本,让资源有限的组织也能使用接近前沿水平的AI技术。

Q2:ServiceNow团队是如何让小模型达到大模型性能的?

A:研究团队采用了三阶段精心设计的训练策略:首先通过深度扩展增加模型层数而非参数量,然后进行分阶段持续预训练,最后使用高质量数据进行监督精调。关键在于数据质量优于数量,以及针对特定能力的合成数据生成,就像精心设计烹饪流程而非简单增加食材。

Q3:这个模型在哪些任务上表现最好,有什么局限性?

A:模型在数学推理(AIME2025达87%)、指令跟随和文档理解任务上表现优异,特别是在结合文本和视觉信息的任务中表现突出。但在纯视觉推理任务上相对较弱,比如MMMU-PRO视觉部分只有48.21%,说明在完全依赖视觉信息的复杂推理方面还有提升空间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河南商丘多人在国道边停车捡“银子”,交警:系铝合金废料,暂不清楚来源

河南商丘多人在国道边停车捡“银子”,交警:系铝合金废料,暂不清楚来源

极目新闻
2026-02-19 12:49:48
瑞典人三百年持续对华仇恨,背后原因揭秘

瑞典人三百年持续对华仇恨,背后原因揭秘

何氽简史
2026-02-17 14:57:14
日本阻止新建穆斯林墓地,网友:他们正在完全拒绝伊斯兰教

日本阻止新建穆斯林墓地,网友:他们正在完全拒绝伊斯兰教

丫头舫
2026-02-18 19:14:08
2025全国省GDP排名:上海5.6万亿仅第9,北京没进前十,第一太强

2025全国省GDP排名:上海5.6万亿仅第9,北京没进前十,第一太强

青橘罐头
2026-02-18 19:59:53
中方:日本无论以任何借口行使所谓“集体自卫权”介入台湾问题,都将构成对中国的侵略,中方必将迎头痛击!

中方:日本无论以任何借口行使所谓“集体自卫权”介入台湾问题,都将构成对中国的侵略,中方必将迎头痛击!

环球时报国际
2026-02-19 08:28:03
娱乐圈著名6对“死对头”,个个矛盾根深蒂固,至今老死不相往来

娱乐圈著名6对“死对头”,个个矛盾根深蒂固,至今老死不相往来

a入画浅相思
2026-02-18 18:16:12
龙洋眼往上瞟,不是看提词器,也不是针打多了,而是一个“硬伤”

龙洋眼往上瞟,不是看提词器,也不是针打多了,而是一个“硬伤”

她时尚丫
2026-02-17 22:41:30
票房 20 亿!春节档电影格局已定:3部成炮灰,2部下滑,1家独赢

票房 20 亿!春节档电影格局已定:3部成炮灰,2部下滑,1家独赢

社会日日鲜
2026-02-19 09:13:17
意难平!广东网友哭诉,回老家发5000红包,孩子收到10块20块回礼

意难平!广东网友哭诉,回老家发5000红包,孩子收到10块20块回礼

火山詩话
2026-02-18 10:00:10
突发!美联储,重磅发布!集体拉升!

突发!美联储,重磅发布!集体拉升!

魏家东
2026-02-19 09:08:55
“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

真正能保护你的
2026-02-18 10:25:25
《飞驰人生3》断崖下跌,票房缩水10亿,沈腾追不上吴京了

《飞驰人生3》断崖下跌,票房缩水10亿,沈腾追不上吴京了

影视高原说
2026-02-19 09:42:40
这种畜牲放在中国早就打靶了

这种畜牲放在中国早就打靶了

阿尔法34号
2026-02-18 10:39:05
凌晨发送恐吓信息?桔子酒店涉事门店:已报警,非员工发送

凌晨发送恐吓信息?桔子酒店涉事门店:已报警,非员工发送

大风新闻
2026-02-19 09:46:23
2018年,张扣扣向王家复仇,唯独不杀王自新妻子:她有不死的理由

2018年,张扣扣向王家复仇,唯独不杀王自新妻子:她有不死的理由

阅微札记
2026-02-19 09:25:05
伊朗突然作起死来了...

伊朗突然作起死来了...

西楼饮月
2026-02-18 23:02:15
两部门派出督导组赴湖北宜城督导烟花爆燃事故调查处置,要求湖北省政府深入调查,严肃追责问责

两部门派出督导组赴湖北宜城督导烟花爆燃事故调查处置,要求湖北省政府深入调查,严肃追责问责

三湘都市报
2026-02-18 22:04:18
中国游客称因道路积雪被困俄罗斯“极光村” 超40小时,俄媒:滞留游客都已离开

中国游客称因道路积雪被困俄罗斯“极光村” 超40小时,俄媒:滞留游客都已离开

上游新闻
2026-02-17 20:22:05
再立新功!俄价值超1.2亿美元的S-300VM与道尔防空系统遭摧毁

再立新功!俄价值超1.2亿美元的S-300VM与道尔防空系统遭摧毁

军迷战情室
2026-02-18 23:58:09
老板娘总发这种照片给我,她啥意思啊?

老板娘总发这种照片给我,她啥意思啊?

太急张三疯
2026-02-19 07:59:48
2026-02-19 15:16:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1848文章数 162关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

网友称取消酒店订单后凌晨收到店家恐吓信息 多方回应

头条要闻

网友称取消酒店订单后凌晨收到店家恐吓信息 多方回应

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

数码
本地
艺术
手机
公开课

数码要闻

内存价格崩了 国内最高降价20%:去华强北市场揭秘实情!

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

艺术要闻

震惊!安徒生竟是画家,他的田园生活太美了!

手机要闻

红魔11 Pro手机运行《赛博朋克2077》帧率为20-50FPS

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版