网易首页 > 网易号 > 正文 申请入驻

大,就聪明吗?论模型的“尺寸虚胖”

0
分享至

你可能刷过这样的新闻:

一个只有 27B Gemma-3 参数的小模型,竟和 671B 参数 DeepSeek V3 不相上下。世界又要变天了

后面,可能还带个图,像这样:

这种“技术奇迹” ,总被媒体反复包装成“一夜变天”,但其实并不新鲜:

  • • 大模型说:我参数更大、上限更高。

  • • 小模型说:我表现差不多,推理还便宜。

  • • 厂商都在说自己赢了,读者却越来越搞不懂这到底在比什么。

细究起来,这表面是在做模型对比,实则是两种语言体系在鸡同鸭讲,而参数恰成了“最容易理解、但最容易误导”的数字,如同:用人口数量,来判断足球水平。

我想借着这个话题,来聊聊几个核心问题:

  • • 为什么参数量大 ≠ 实际效果强?

  • • Dense 和 MoE 到底是怎么一回事?

  • • “看起来很大”的模型,到底动用了多少能力?

  • • 在大模型持续扩张的趋势下,小模型还有哪些“后发机制”?

大,不一定“聪明”

我们说“参数量大 ≠ 实际效果强”,不是在否定参数的意义,而是在拆一个经常被误用的判断标准。最常见的误区,就是把不同类型的模型,拉到同一个坐标轴上用参数量做对比:而它们,本就没有可比性。

Gemma-3 是 Dense 架构,也就是稠密模型,它的全部 27B 参数在使用中都会被激活,全部参与计算,属于“全员出战”的结构。

DeepSeek V3 是 MoE 架构(Mixture of Experts),也就是混合专家模型。它的总参数量高达 671B,但每次推理只会激活其中一小部分专家网络,实际参与计算的大约是 37B。剩下的大多数参数处于“待命状态”。

你看到的是 671B vs 27B,但模型实际调用的是 37B vs 27B:这看上去体量悬殊,实则差别不大。所以说,参数比较本身没问题,问题在于不能混着比

当然了,在同一架构内(比如 Dense 对 Dense),参数依然是判断能力上限的重要指标;但跨架构直接对比参数数量,得出的“谁强谁弱”往往是错位的。

MoE 的由来

接着回来说说参数:参数的增加能带来“规模效应”——也就是能力的非线性跃迁。因此,各家模型才持续堆大,从 GPT-2 到 GPT-3,再到 PaLM、Gemini、Qwen,每一代都在冲上限。

只不过,Dense 架构的增长曲线实在太“正经”了。随着参数规模增大,算力成本也得不断翻翻,几乎没有优化空间。当参数飙升到几千亿、上万亿时,一轮训练就要烧掉上千万美元,硬件和能源的门槛也迅速被拉高。模型越大,训练成本越高,硬件要求越严,能做的人越来越少。

MoE 的到来,正是为了在不炸成本的前提下,继续扩容。

MoE 并不是哪个厂商的独门绝技,而是渊源已久。早在1991年, Michael I. Jordan 和 Geoffrey E. Hinton 就提出这个思想。只不过当时受限于工程能力,难以真正落地。直到2017年,Google 的 Jeff Dean 团队将 MoE 应用于 LSTM 架构,训练出了一个 137B 参数的模型,参数规模巨大,但计算开销却没有爆表,这一尝试也正式为大模型扩容打开了新路。

2020年,Google 推出结合 Transformer 架构的 Switch Transformer,参数量飙升至 1.6 万亿。这并不是为了炫数字,而是为了验证一个核心概念:参数可以很多,但不需要每次都全部激活。只要调度得当,就能在控制计算成本的同时,获得更高的模型容量。这也彻底改变了大模型的设计逻辑,从“每个参数都得上场”,变为“让对的专家在对的时刻出场”。

国内最早大规模落地 MoE 架构的,是“悟道”团队(北京智源研究院),2021年,他们训练了一个 1.75 万亿参数的模型,并自研了 FastMoE 框架,重写了底层调度逻辑,才支撑起这种超大规模的训练任务。自此,MoE 架构逐渐成为工业级大模型的主流形态之一,Google PaLM、Mistral-8x22B、阿里的 Qwen-MoE 等也陆续采用类似方案。

DeepSeek 则做出了一些「本土创新」,比如引入“细粒度专家”机制,把原本的大模块进一步细分,提升了专家的专业性;同时设计了“共享专家”组件,用于捕捉底层通用知识,减少冗余,也提升了多任务之间的表现一致性。这些改进一方面减轻了算力压力,另一方面也有效缓解了传统 MoE 常见的问题,比如:路由不稳定、风格漂移、知识碎片化等。

但也正是 DeepSeek 的出色表现,带来了一些新的误解。比如,不少人将“MoE”简单等同于“更聪明”“更先进”,反过来认为 Dense 模型因为体积小就一定弱。这其实是一个需要澄清的观念偏差。MoE 和 Dense,本质上只是两种不同的资源调度策略,是否采用 MoE,并不能决定一个模型是不是“聪明”。真正决定智能水平的,仍然是模型的训练质量、架构合理性、任务适配能力。

有关 MoE 的另一个误解是“用不到的专家,不占资源”。正相反,在 MoE 架构中,虽然每次只激活少数专家,但所有参数依然必须常驻显存,真正部署起来的硬件负担一点都不轻。因此,对于私有部署同性能模型来说,MoE 显卡成本会高出很多。

小,也可以“聪明”

聪明,不一定靠“大”。

人可以靠后天努力提升能力,小模型也能成长,比如通过知识蒸馏(Knowledge Distillation):让小模型参考大模型的答案,并模仿它处理任务的方式。它的本质仍然是“看答案”,但不是死记答案,而是学会答题的思路和节奏

整个过程通常是这样的:

  1. 1. 大模型先跑一轮任务,生成高质量参考输出,比如说「五年急转弯,三年弱智吧」;

  2. 2. 小模型拿这些答案来学习,但重点不在“复制结果”,而是在模仿—— 学它怎么理解问题、怎么组织信息、怎么一步步得出结论。

需知:蒸馏并不是“把大模型压缩成小模型”,而是把聪明的部分提炼出来、迁移过去,保留了方法论(而不是复制粘贴参数)

比如 DeepSeek-R1 的蒸馏版 ——DeepSeek-R1-Distill-Qwen-32B,就是一个很典型的例子:虽然参数缩小了一个数量级,但在多个任务上的表现依然接近,甚至在一些结构化输出上更稳定。

可见,聪明不是大模型的特权,是训练出来的本事。

模型的对比,不是参数拉踩,不是看谁的数字更大、名字更响。

MoE 架构的出现,是为了让大模型在成本可控的前提下继续扩容;而知识蒸馏,则让小模型有机会承接大模型的能力,用更轻的体积完成更多的任务。它们分别指向两个方向,但都在回答同一个问题:如何更高效地使用资源

所以,真正值得关注的,不是模型有多大,而是它能不能把事办好、办稳、办漂亮。

毕竟,“大”不一定代表聪明。

当然,如果名字就叫“大聪明”,那另说

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
耿同学又爆新料!多所985名校顶刊论文集体沦陷

耿同学又爆新料!多所985名校顶刊论文集体沦陷

网易新闻出品
2026-05-29 19:29:43
新加坡香会取消了中国专场!李显龙没料到,这次中方不陪他们玩了

新加坡香会取消了中国专场!李显龙没料到,这次中方不陪他们玩了

影孖看世界
2026-05-29 23:54:06
离开北京陈盈骏道别,发声喊话,官宣决定,妻子陪同,合同已到期

离开北京陈盈骏道别,发声喊话,官宣决定,妻子陪同,合同已到期

阿晞体育
2026-05-29 21:52:16
五天近12亿,《给阿嬷的情书》被11亿成本大片打败,丢掉全球冠军

五天近12亿,《给阿嬷的情书》被11亿成本大片打败,丢掉全球冠军

影视高原说
2026-05-28 18:59:51
白养了!2儿子非亲生后续:大儿子狂骂姜洪涛,连法官都看不下去

白养了!2儿子非亲生后续:大儿子狂骂姜洪涛,连法官都看不下去

不似少年游
2026-05-29 09:42:48
美国一男子半小时内在纽约连杀四名游民,其中包括一名83岁华裔老人,并致另一受害者重伤,因纽约州已废除死刑,凶手被判40年至终身监禁

美国一男子半小时内在纽约连杀四名游民,其中包括一名83岁华裔老人,并致另一受害者重伤,因纽约州已废除死刑,凶手被判40年至终身监禁

三湘都市报
2026-05-29 09:16:24
特朗普就结束伊朗战事提出条件

特朗普就结束伊朗战事提出条件

新华社
2026-05-29 23:05:06
农村老家空心化到了什么程度?连葬礼的流程也已经极度简化了

农村老家空心化到了什么程度?连葬礼的流程也已经极度简化了

合赞历史
2026-05-29 15:08:34
偷走网红狗后续:村民围堵狗主,派人守村口,偷狗人真容曝光社死

偷走网红狗后续:村民围堵狗主,派人守村口,偷狗人真容曝光社死

奇思妙想草叶君
2026-05-28 19:17:55
老房子可原拆原建,引爆地产股!万科、碧桂园集体涨停!

老房子可原拆原建,引爆地产股!万科、碧桂园集体涨停!

说财猫
2026-05-29 13:46:05
涉案金额过亿,释永信一审被判有期徒刑24年

涉案金额过亿,释永信一审被判有期徒刑24年

界面新闻
2026-05-29 19:31:49
这跟不穿有啥区别?戛纳闭幕式,女星下垂、副乳突出,露的好辣眼

这跟不穿有啥区别?戛纳闭幕式,女星下垂、副乳突出,露的好辣眼

天马幸福的人生
2026-05-26 11:05:02
幼儿园老师,被指用热熔枪烫小女孩嘴唇

幼儿园老师,被指用热熔枪烫小女孩嘴唇

中国新闻周刊
2026-05-29 19:55:07
杭州女子征婚:不要彩礼,能提供5分钟夫妻生活,每月给男人3000

杭州女子征婚:不要彩礼,能提供5分钟夫妻生活,每月给男人3000

谭谈社会
2026-05-28 18:34:27
37岁企业董事长、车手张秀军环塔拉力赛中意外离世,弟弟发声:哥哥开车翻到水坑里溺亡,三个年幼孩子尚不知父亲遇难

37岁企业董事长、车手张秀军环塔拉力赛中意外离世,弟弟发声:哥哥开车翻到水坑里溺亡,三个年幼孩子尚不知父亲遇难

极目新闻
2026-05-29 21:53:30
超级巨大失误!颜骏凌“下蛋”,邦本远射破门,穆斯卡特直挠头

超级巨大失误!颜骏凌“下蛋”,邦本远射破门,穆斯卡特直挠头

奥拜尔
2026-05-29 19:53:26
时隔13年回归!曝63岁穆帅已与皇马签约3年:6月7日官宣 佛爷钦点

时隔13年回归!曝63岁穆帅已与皇马签约3年:6月7日官宣 佛爷钦点

风过乡
2026-05-29 22:44:31
“好怕你俩亲上”,成年礼家长合照出圈,儿子的情结写在脸上

“好怕你俩亲上”,成年礼家长合照出圈,儿子的情结写在脸上

蝴蝶花雨话教育
2026-05-29 00:05:17
还敢去全季酒店过夜吗

还敢去全季酒店过夜吗

不正确
2026-05-28 23:04:54
襄阳“割四赔五”后续!当事人还原真相,父亲曝更多,官方回应

襄阳“割四赔五”后续!当事人还原真相,父亲曝更多,官方回应

180视角
2026-05-29 13:43:46
2026-05-30 03:28:49
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
455文章数 53关注度
往期回顾 全部

科技要闻

Claude Opus 4.8凌晨突发上线

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

近3个月跌超20% 黄金"猴市"下的众生相

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

时尚
教育
亲子
旅游
游戏

推广中奖名单-更新至2026年4月28日推广

教育要闻

说到这样的题目,我就不得不佩服我的学霸美女老师了

亲子要闻

为了让孩子变“超模脸”,每天徒手扩颚、暴力正颌?外国妈妈卷疯了!

旅游要闻

云南文旅数智升级,旅游小镇游客满意度提升超过30%

Sky&Infi领衔参赛!2026 GG全能王赛重磅开启,7月线下决战

无障碍浏览 进入关怀版