网易首页 > 网易号 > 正文 申请入驻

同一天两件大事!小模型直接掀翻千亿参数,走向效率为王

0
分享至


大模型技术从“云端”向“终端”转移的过程中,实用主义终将战胜性能堆砌。

作者丨陈嘉欣

编辑丨马晓宁

5月13日,AI圈同时炸了两件事。

第一件事是顶级CV学者何恺明带着MIT团队,发布了人生第一个语言模型ELF。

105M参数,不走GPT自回归的老路,全程在连续embedding空间里做扩散,最后一步才离散化回文字。发布仅几小时,X上的讨论就炸了——"Kaiming出品,必属精品"。


第二件事是清华系团队面壁智能开源了新一代「小钢炮」MiniCPM-V 4.6。

这款模型在Artificial Analysis的智能指数上拿了13分,比Qwen3.5-0.8B高出整整3个点,却只有它1/19的推理token消耗量。而且它仅1.3B,一张4090就能“爆改”。


同一天发生的两件事都在指向一个问题:AI行业正在经历一个微妙的转折,从"堆算力"转向"省算力"。

2026上半年,当DeepSeek V4、Qwen3.5、Gemma 4这些大厂还在卷千亿参数时,端侧小模型的已经迎来了新一轮浪潮,如今社区最大的声音已经不是"谁家模型最大",而是"谁家模型最小、最快、最省硬件"。

01


算力降维:从"堆H100"到"一张4090就够了"

面壁智能这次开源的MiniCPM-V 4.6,最炸裂的不是参数规模本身,而是效率。

先看一组数据:在Artificial Analysis的智能指数测试中,MiniCPM-V 4.6以5.4M output token完成全部测试,同期测试的Qwen3.5-0.8B非推理版用了101M,推理版用了233M。前者是后者的1/19和1/43。


1/43是什么概念?别人做43次推理的算力,它能做43次。

再看吞吐量:在256并发、1000张图像的高压测试下,MiniCPM-V 4.6单张RTX 4090的吞吐量比Qwen3.5-0.8B高出1.6倍。


清华系的1.3B"小钢炮",同样把硬件门槛拉到了极致,一张消费者级别的RTX 4090就能跑。不需要H100,不需要A100。一台游戏显卡就能部署AI模型做二次开发。放在一年前,这是不敢想的。

这些数据放在一起,指向同一个结论:AI的参数竞赛正在让位于效率竞赛。

一位曾经在Meta和momenta任职,目前现在做具身创业的研究者向雷峰网表示,小模型在端侧的优势不是理论上的,是实打实的商业选择。"大多数用户不需要一个能写论文的模型,他们需要的是一个能随时响应、不掉线的模型"。

另一位高通的负责人也向雷峰网表示了类似观点:“参数越少,越容易在本地做微调、越容易适配每个人的使用习惯。个人AI时代,模型不需要记住全人类的知识,只需要记住你一个人的就够了"。

沿着这条思路往下看,你会发现小模型干的远远不只是"省算力"这么简单。

02


架构换道:从"预测下一个词"到"连续空间扩散"

何恺明的ELF,走了一条和GPT完全不同的路。

先搞清楚一个背景。两年多来,AI对话模型的根基几乎都是"预测下一个词",把一句话拆成一个个token,依次猜下一个该是什么。这条路GPT证明了有效,但也有一条为人熟知的软肋:生成速度慢、且没法回头修改已经生成的词。

扩散模型在图像领域早就证明了"不按顺序也能生成高质量内容",Stable Diffusion从一团噪声逐步恢复为一张图像,比自回归生成灵活得多。但在语言领域,这条路一直走得磕磕绊绊。

问题出在哪?现有的大多数扩散语言模型(DLM)虽然在"做扩散",但操作的对象仍然是离散token,本质上还是在有限的离散空间里"洗牌",没有真正发挥扩散的连续优势。

何恺明团队的解法干净利落:全程留在连续embedding空间里去噪,只在最后一步离散化成文字。


这就像以前做雕塑,是一块块往上堆泥巴(顺序生成每个token);现在是把一整块石头里的多余部分全部磨掉(在连续空间逐次去噪),最后一步才刻上细节。效率更高,而且能全局统筹。

这种解法起手就和之前完全不一样。所以ELF 105M参数、45B训练token、32步采样,就跑赢了现有的DLM方案,不需要额外蒸馏。

沿着架构创新的方向再看MiniCPM-V 4.6。它采用LLaVA-UHD v4架构,视觉编码器的计算量降低了约50%。这意味着,处理一张3136×3136的高分辨率图像,在RTX 4090上只需要75.7ms。以前这是云端的活,现在端侧芯片就能干。

从"预测下一个词"到"连续空间中去噪",从"云端算力"到"端侧芯片",这两条看似独立的创新线,正在指向同一个方向:AI模型的底层架构,正在从"一个超大的黑箱"变成"一个精巧的、分工明确的小系统"。

架构变了,生态也会变。小,正在成为新的"大"。

03


拉开AI轻量化浪潮的序幕

根据AI科技评论的观察,目前市场上关于AI轻量化的三个变化正在发生。

变化一:端侧AI从概念到标配。MiniCPM-V 4.6已经能在手机上跑,不需要联网,不需要云。2026年下半年,你会看到更多手机厂商把端侧模型作为卖点,直接打出"本地跑模型"的旗号。

变化二:架构创新正在打破Scaling Law的垄断。ELF证明了语言模型不一定非要自回归。MiniCPM证明了1.3B也能打。Scaling Law说"越大越好",但ELF和MiniCPM说"够用就好,够快更好"。当架构创新成为新的竞争力源头,"堆参数"的军备竞赛模式正在失效。

变化三:商业模式与落地场景由“算力竞赛”转向“成本优化”。企业端不再盲目追大,多数 B 端场景如智能客服、文档辅助等开始倾向于定制化的轻量级模型,因为其推理成本仅为超大模型的数十分之一,更符合商业闭环。

何恺明下场做语言模型,面壁开源第五代端侧模型,高通押注个人AI。站在2026年5月回头看,这些不是孤立的新闻。它们拼出了同一个信号:AI轻量化浪潮的序幕已经拉开。

AI 的未来不再是“越大越好”,而是“在足够的聪明度下,越轻越贵”。如何做更好的小模型,这或许才是2026年AI行业最值得关注的方向。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
官方通报“离奇消失”?南通住建局这波操作引发质疑

官方通报“离奇消失”?南通住建局这波操作引发质疑

好通网
2026-05-15 10:15:10
中美会晤结束,中方一锤定音,特朗普通告全世界,美媒:美国变了

中美会晤结束,中方一锤定音,特朗普通告全世界,美媒:美国变了

星夜涟漪
2026-05-15 03:29:27
AI预测世界杯小组赛结果:英阿法德西葡荷均晋级,巴西、摩洛哥同分

AI预测世界杯小组赛结果:英阿法德西葡荷均晋级,巴西、摩洛哥同分

懂球帝
2026-05-14 19:00:47
美伊战争打醒了所有人,原来中国真正的“护城河”,竟然是山西?

美伊战争打醒了所有人,原来中国真正的“护城河”,竟然是山西?

蜉蝣说
2026-05-14 18:32:25
拉亚已完成18场零封,英超史上有6位门将曾解锁单赛季20+零封

拉亚已完成18场零封,英超史上有6位门将曾解锁单赛季20+零封

懂球帝
2026-05-15 07:58:07
“扶弟魔”姐姐十年买房又给钱,却被弟弟一怒砍杀:钱给的不够花

“扶弟魔”姐姐十年买房又给钱,却被弟弟一怒砍杀:钱给的不够花

莫地方
2026-05-13 00:40:03
米体:伊瓜因单季36球破纪录,十年前成那不勒斯告别夜

米体:伊瓜因单季36球破纪录,十年前成那不勒斯告别夜

懂球帝
2026-05-14 22:55:13
蒋万安和江启臣在向郑丽文的两岸和平路线上靠近

蒋万安和江启臣在向郑丽文的两岸和平路线上靠近

纵拥千千晚星
2026-05-13 07:13:47
绝色美人艾梅柏:曾经迷倒德普和马斯克,如今带着3个娃“隐居”

绝色美人艾梅柏:曾经迷倒德普和马斯克,如今带着3个娃“隐居”

小书生吃瓜
2026-05-02 22:22:47
首个国有大行信用卡APP下月关停

首个国有大行信用卡APP下月关停

21世纪经济报道
2026-05-14 21:39:56
刘松仁发文致歉米雪,半个世纪搭档情谊引热议

刘松仁发文致歉米雪,半个世纪搭档情谊引热议

北青网-北京青年报
2026-05-15 11:16:07
141:0全票通过!法国连夜通过重大草案,中国这次的回应很不一般

141:0全票通过!法国连夜通过重大草案,中国这次的回应很不一般

潮鹿逐梦
2026-05-12 17:14:43
100年前丧国辱权的协议却成100年后的金钥匙,国运来了挡都挡不住

100年前丧国辱权的协议却成100年后的金钥匙,国运来了挡都挡不住

富强巨靠谱
2025-03-21 17:01:22
移动8元保号+120元包年流量卡,热点替代宽带,一年200多够用

移动8元保号+120元包年流量卡,热点替代宽带,一年200多够用

粤语音乐喷泉
2026-05-15 09:51:09
WTA1000罗马站:斯瓦泰克1-2不敌低排名选手,世界第3无缘决赛

WTA1000罗马站:斯瓦泰克1-2不敌低排名选手,世界第3无缘决赛

侧身凌空斩
2026-05-15 06:34:06
夫妻能够相互喂饱,才是最好的婚姻!

夫妻能够相互喂饱,才是最好的婚姻!

灯锦年
2026-05-15 10:55:19
“你的孩子,大概率是个普通人”,为啥我不能接纳孩子的平凡?

“你的孩子,大概率是个普通人”,为啥我不能接纳孩子的平凡?

枕边聊育儿
2026-05-15 09:21:06
【日运】十二星座2026年5月16日运势播报

【日运】十二星座2026年5月16日运势播报

别人都叫我阿螫
2026-05-15 10:38:19
他套现百亿,留下27万股民和一张ST废纸,闻泰科技给投资者上了一课

他套现百亿,留下27万股民和一张ST废纸,闻泰科技给投资者上了一课

A活着
2026-05-09 20:47:26
全球独一份?为何全世界,只有中国敢从歼7一步换到歼20

全球独一份?为何全世界,只有中国敢从歼7一步换到歼20

聊历史的阿稼
2026-05-15 09:27:13
2026-05-15 11:56:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7275文章数 20751关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

103岁和86岁老人认识3个月"闪婚":孤独感消失了

头条要闻

103岁和86岁老人认识3个月"闪婚":孤独感消失了

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛回应住男生单人间:女孩的配得感

财经要闻

特朗普的北京时刻

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

房产
时尚
艺术
健康
军事航空

房产要闻

海南楼市新政要出!拟调公积金贷款额度,最高可贷168万!

看《给阿嬷的情书》,带纸巾,别带懂王

艺术要闻

15幅 丹麦画家Carsten Henrichsen风景油画

专家揭秘干细胞回输的安全风险

军事要闻

乌克兰首都基辅遭空袭 死亡人数增至12人

无障碍浏览 进入关怀版