网易首页 > 网易号 > 正文 申请入驻

Nature子刊:大模型进入“密度时代”

0
分享至


导语

大语言模型已成为人工智能发展的重要里程碑。既有的规模法则表明,随着模型规模的扩大,LLM的性能会持续提升,但这也对训练与部署带来显著挑战。尽管业界不断尝试提升模型效率,却仍缺乏关于不同规模LLM的效率发展趋势与评价体系的统一共识。为解决性能与效率之间的张力,本文提出“能力密度”这一概念,用以衡量模型在单位参数上所体现的有效能力,从而在性能与效率两个维度上提供统一的评价框架。我们进一步给出一项经验性发现,即“密度定律”:LLM的能力密度随时间呈指数增长。基于多个主流基准的评估结果显示,开源LLM的最大能力密度大约每3.5个月翻倍。这意味着,实现同等性能所需的参数规模与推理成本均在指数下降,为高效LLM的开发策略提供了新的启示。

关键词:大语言模型(LLMs)、规模法则(Scaling Law)、能力密度(Capability Density)、密度定律(Densing Law)、效率评估(Efficiency Evaluation)

郑鸿盛丨作者

赵思怡丨审校


论文题目:Densing law of LLMs 论文链接:https://www.nature.com/articles/s42256-025-01137-0 发表时间:2025年11月6日 论文来源:Nature Machine Intelligence

能力密度的指数跃迁,

正在悄悄改变 AI 的未来

近两年,大模型的突飞猛进让人切身感受到“技术狂飙”,然而一个更耐人寻味的现象也随之浮现:模型能力不断提高,推理成本却在飞速下降;小模型越来越频繁地逼近甚至超越大模型;而“继续堆参数”似乎不再是性能提升的唯一途径。2025年11月6日发表于Nature Machine Intelligence 的论文《Densing Law of LLMs》给出了一种颠覆性的解释——大模型正在从拼“规模”转向拼“密度”。研究发现,LLM的“能力密度”(capability density)正以指数速度增长,约每3.5个月翻一倍,这意味着达到同等性能所需的参数量大幅减少,推理成本呈指数级下降,端侧智能(在手机、PC等本地设备运行大模型)将比预期更早成熟。这不是简单的性能提升,而是一场关于效率的革命。让我们从这篇可能深刻影响未来五年的论文开始,重新理解大模型的进化方向。

过去衡量模型能力,业界普遍遵循“参数越大,性能越强”的直觉,但随着大量开源模型的涌现,这一直觉逻辑开始失灵,出现7B模型逼近甚至匹敌70B模型,4B模型在部分任务上超过13B模型,手机端模型也逐渐具备ChatGPT3.5的水平,而训练数据质量与训练策略的重要性日益凸显。这些现象共同指向一个事实——参数量已无法充分解释模型能力的差异,规模不再等同于质量。因此,真正需要关注的已不再是“模型有多大”,而是“模型的效率有多高”。

什么是“能力密度”?简单来说,它衡量的是模型“每个参数的含金量”。其定义为:能力密度 = 模型的有效能力 ÷ 实际参数量。这里的“有效能力”并非模型自身的参数规模,而是一个反推值:如果某模型达到特定性能,那么一套参考模型需要多少参数才能取得相同表现,这个等效参数量记为 N̂(此处的参考模型为研究者自建的一系列不同参数规模、结构一致、训练流程一致的小参数规模模型)。于是能力密度可写为 ρ = N̂ / N,用来刻画模型训练得是否“紧实”。例如,一个3B模型若达到参考模型6B的能力,则密度 ρ = 6 / 3 = 2,代表其单位参数效率极高;反之,若一个7B模型只能达到参考模型3B的水平,则 ρ < 1,说明其参数利用率偏低。本质上,能力密度回答的就是那一句:模型的每个参数到底“值不值钱”?

密度定律:能力密度正以指数方式增长

本研究中最重要的发现之一,是大模型的能力密度随时间呈现稳定的指数增长趋势。研究者选取五十余个近年来发布的开源基础模型,覆盖多个系列(如 Llama、Mistral、Gemma、Phi、DeepSeek、MiniCPM 等),并在多个主流基准(MMLU、BBH、MATH、HumanEval、MBPP)上进行统一评估。结果显示,模型的最大能力密度大约每 3.5 个月翻一倍,这一趋势在不同任务和不同模型之间都十分一致。


图 1|近年来开源大模型的能力密度趋势。每个点代表一个模型,圆点越大参数量越大。从图中可以看到,随着时间推移,能力密度的上界呈现清晰的指数增长。

这一指数增长趋势意味着:未来达到相同性能所需的参数量将持续减少。换言之,人们惯常认为的“大模型能力强、但成本高”的认知,将在未来不断被弱化。更令人兴奋的是,这种指数增长在新模型中体现得更为突出,特别是数据质量、训练策略更为精细的小模型,往往展现出远超其规模的能力密度。

能力密度提升的一个自然结果,是实现相同性能所需的实际参数量不断减少。与此同时,推理成本也正在以类似的指数速度下降。文章对多个高性能模型的API调用价格进行了整理,并展示了一个同样令人惊讶的趋势:模型的推理价格大约每2.6个月减半。2022 年 GPT-3.5 的价格约为每百万token需要20美元,而到了 2024 年,Gemini Flash的推理价格仅为0.075美元,相当于下降了超过260倍。


图 2|近年来几个主流语言模型的推理价格变化。性能优于 GPT-3.5 的大语言模型(LLMs)的应用程序接口(API)定价。线条连接各时间点定价最低的模型,最便宜模型的API定价呈指数下降。

推理成本的下降不仅来自模型能力密度的提升,也来自底层推理技术的优化,例如 FlashAttention、PagedAttention、量化推理格式、稀疏激活架构等。随着模型本身越来越“紧实”,推理成本的下降幅度也将持续扩大。

当密度定律遇上 Moore 定律:

端侧智能将提前爆发

当能力密度的指数增长与硬件性能的指数增长叠加时,一个更加激进的趋势会出现。过去数十年里,硬件晶体管密度大约每两年翻一倍;如今,大模型的能力密度每3.5个月翻一倍。两者的乘积效果意味着:在固定价格的硬件上,能够运行的“有效模型规模”约每88天翻一倍。

这预示着什么?预示着过去需要云端大模型才能实现的能力,未来将能在手机、电脑、平板等设备上高效运行。端侧 AI 的普及速度可能远超过我们目前的想象,隐私计算、低成本部署、离线大模型应用将因此迎来爆发式发展。


图 3|大模型的高性能正向小规模模型迁移,同时端侧可运行模型的能力快速提升(图片源于网络)。红色虚线区域代表接近GPT-4V水平的模型带宽,随着时间推移,越来越小的模型逐渐逼近这一性能区间;下方蓝色虚线趋势线展示了能够在端侧设备运行的模型能力不断上升。

高密度模型不是“压”出来的,而是“练”出来的

在参数规模快速被重新评估的背景下,一个看似合理的猜想是:既然参数越少越高效,那么剪枝、蒸馏、量化等模型压缩技术应该更容易得到高能力密度的小模型。但论文的实验结果却指向相反方向——压缩后的模型能力密度整体上并不比原模型高,甚至往往更低。其根本原因在于,压缩过程虽然减少了模型的实际参数量,却没有让模型获得足够的再训练,从而无法让这些“更轻”的参数真正承担起更高的能力负载。尤其是量化,虽然降低了内存和推理成本,但不可避免地带来一定的性能损失。因此,真正高密度的小模型,并不是“从大模型压缩而来”,而是“从一开始就为高密度而训练”的结果。

能力密度之所以能够持续提升,主要源于三方面的共同推动。首先,训练数据的规模与质量显著提高。以Llama系列为例,Llama-3 所使用的15万亿token数据不仅规模远超Llama-1的1.4万亿token,且在清洗与筛选流程上更加精细,这使模型能够在同样结构下学习到更丰富、更可靠的知识。其次,模型结构日益高效。以稀疏专家模型(MoE)为代表的新架构,使模型在推理时仅激活部分专家,从而以更低的计算量获得更强的表达能力,大幅提高“参数的利用率”。最后,训练算法不断演进。无论是将强化学习前移到预训练阶段,还是利用高质量的合成数据和“弱到强”(weak-to-strong)训练策略,这些方法都让模型能够在固定参数量下挖掘出更高的能力上限。这些因素共同作用,使得模型在“单位参数上可以学习到更多能力”,从而推动能力密度不断攀升。

当然,谨慎来说能力密度的增长不可能无限持续。信息论告诉我们,每个参数能够存储的信息量是有限的,模型参数的表达能力也有理论上界。随着模型的训练方式、数据质量和结构不断提升,能力密度的增长最终将遇到瓶颈。届时,如果要继续突破当前框架的限制,可能需要依赖全新的技术范式,例如量子计算、类脑计算或其他尚未成熟的计算架构。尽管如此,在可预见的未来几年中,能力密度仍会保持高速增长,模型变“密”的趋势不会减弱。

密度定律不仅是一个科学观察,更是一个具有产业指导意义的趋势。对于模型研发而言,它提示我们,未来的竞争不再是单纯扩大参数规模,而是追求“更高密度”的训练方法与更高质量的数据;对于企业而言,可以据此预测未来模型成本的下降趋势,从而更合理安排AI投入;对于硬件和应用产业,则意味着端侧智能将迎来快速扩张,本地运行大模型将从技术挑战变成新常态。

从“大”到“密”,AI 的进化正在加速重写

《Densing Law of LLMs》揭示的,是一种隐藏在大模型演化背后的“效率革命”。在这个新的发展阶段,模型不再依赖“堆大”,而是通过更智能的训练、更优的数据、更精细的结构获得更高的效率。能力密度的指数提升让我们看到:未来的大模型既可能更强,也可能更轻、更快、更便宜,甚至随时运行在每个人的口袋里。

我们正在见证语言模型从“规模时代”迈向“密度时代”,而这一转变,或许将深刻改变未来五年乃至整个AI产业的面貌。

大模型2.0读书会

o1模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起,本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索o1具体实现的技术路径,帮助我们更好的理解机器推理和人工智能的本质。读书会已完结,现在报名可加入社群并解锁回放视频权限。

详情请见:

1.

2.

3.

4.

5.

6.

7.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小米手机被炒到20000块,雷军赌赢了!

小米手机被炒到20000块,雷军赌赢了!

鸣金网
2025-12-29 12:45:17
为什么人一定要主动?网友:因为主动真的可以改命!一定要主动!

为什么人一定要主动?网友:因为主动真的可以改命!一定要主动!

另子维爱读史
2025-12-24 17:45:08
王毅在云南会见泰国外长:中方最不希望看到泰柬兵戎相见,最希望看到两国重归于好,相信只要平等沟通,共同向前走,就没有迈不过去的坎儿

王毅在云南会见泰国外长:中方最不希望看到泰柬兵戎相见,最希望看到两国重归于好,相信只要平等沟通,共同向前走,就没有迈不过去的坎儿

极目新闻
2025-12-29 01:03:20
恭喜!曝陈牧驰二婚喜当爹!女友挺大肚孕相明显,评论区一片嘲讽

恭喜!曝陈牧驰二婚喜当爹!女友挺大肚孕相明显,评论区一片嘲讽

娱圈小愚
2025-12-29 11:29:37
美国真的像牢A说的那样,已经当街吃人肉了吗

美国真的像牢A说的那样,已经当街吃人肉了吗

熊太行
2025-12-28 11:01:46
小心谨慎,火箭锋线被联盟大买家盯上,一筹码或让火箭为之心动

小心谨慎,火箭锋线被联盟大买家盯上,一筹码或让火箭为之心动

拾叁懂球
2025-12-29 03:51:03
钱多有什么用?42岁离婚无儿无女的尼格买提,走上了另外一条道路

钱多有什么用?42岁离婚无儿无女的尼格买提,走上了另外一条道路

古事寻踪记
2025-12-20 07:13:47
越扒越有!不止徐莺,徐湖平被曝大小情人无数,日本翻译都不放过

越扒越有!不止徐莺,徐湖平被曝大小情人无数,日本翻译都不放过

丁丁鲤史纪
2025-12-27 09:36:59
德媒:普京的逻辑是,俄罗斯控制的领土越多,他越不愿谈判!

德媒:普京的逻辑是,俄罗斯控制的领土越多,他越不愿谈判!

老马拉车莫少装
2025-12-28 23:17:49
还敢DNP吗?杨瀚森复出追平姚明!半场27分都没辙!

还敢DNP吗?杨瀚森复出追平姚明!半场27分都没辙!

柚子说球
2025-12-29 09:42:48
痛心!安徽“半挂西施”王迪去世,有三台X6000,出事前刚换轮胎

痛心!安徽“半挂西施”王迪去世,有三台X6000,出事前刚换轮胎

鋭娱之乐
2025-12-28 08:48:03
原来他早已离世,曾是广东知名歌手,40岁突然去世,一生都未结婚

原来他早已离世,曾是广东知名歌手,40岁突然去世,一生都未结婚

阿讯说天下
2025-12-28 12:06:36
合新高铁合肥至泗县段明日将开通运营

合新高铁合肥至泗县段明日将开通运营

界面新闻
2025-12-29 16:54:18
失控了!中方反制美国对台军售,法德英罕谴责美国,中欧要联手?

失控了!中方反制美国对台军售,法德英罕谴责美国,中欧要联手?

墨印斋
2025-12-29 11:10:51
A股:周一,放量并未大涨,释放两个信号,股市即将进入尾声了?

A股:周一,放量并未大涨,释放两个信号,股市即将进入尾声了?

明心
2025-12-29 11:14:57
iPhone16ProMax降至清仓价,512GB暴跌2551元,果粉可以捡漏了

iPhone16ProMax降至清仓价,512GB暴跌2551元,果粉可以捡漏了

科技阿维
2025-12-29 17:43:39
中柬泰三方抚仙会晤新闻公报(全文)

中柬泰三方抚仙会晤新闻公报(全文)

新华社
2025-12-29 14:59:04
中国东航:2026年元旦起国内宽体机航班WiFi全部免费

中国东航:2026年元旦起国内宽体机航班WiFi全部免费

界面新闻
2025-12-29 18:15:54
看呆!一家六口上厕所不用纸,共用一把“刮屎刀”?!然后她亲上去了...了...

看呆!一家六口上厕所不用纸,共用一把“刮屎刀”?!然后她亲上去了...了...

英国那些事儿
2025-12-24 23:22:56
果不其然,遭到中方制裁,美军停止移师关岛,要给中国点颜色瞧瞧

果不其然,遭到中方制裁,美军停止移师关岛,要给中国点颜色瞧瞧

米师傅安装
2025-12-29 12:45:49
2025-12-29 19:04:49
集智俱乐部 incentive-icons
集智俱乐部
科普人工智能相关知识技能
5574文章数 4661关注度
往期回顾 全部

科技要闻

肉搏非洲,传音不想只当个卖手机的

头条要闻

媒体:郑丽文盼明年上半年"登陆" 赖清德急了

头条要闻

媒体:郑丽文盼明年上半年"登陆" 赖清德急了

体育要闻

“史上最贵”的世界杯,球迷成了韭菜

娱乐要闻

谭松韵扛剧能力被质疑 赵丽颖成女主?

财经要闻

翁杰明:宏观数据与居民微观感受存在差距

汽车要闻

“路”要越走越深,猛士的智能越野时代来了

态度原创

健康
教育
时尚
本地
军事航空

这些新疗法,让化疗不再那么痛苦

教育要闻

小升初提优训练:长方休容器中装了120升的水,求表面积

“勃肯鞋”今年冬天爆火!这几双怎么搭都好看

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

军事要闻

东部战区发布的AI视频 一个细节意味深长

无障碍浏览 进入关怀版