同一天两件大事！小模型直接掀翻千亿参数，走向效率为王|大模型|token

同一天两件大事！小模型直接掀翻千亿参数，走向效率为王

2026-05-14 08:36:37　来源: AI科技评论

广东举报

分享至

大模型技术从“云端”向“终端”转移的过程中，实用主义终将战胜性能堆砌。

作者丨陈嘉欣

编辑丨马晓宁

5月13日，AI圈同时炸了两件事。

第一件事是顶级CV学者何恺明带着MIT团队，发布了人生第一个语言模型ELF。

105M参数，不走GPT自回归的老路，全程在连续embedding空间里做扩散，最后一步才离散化回文字。发布仅几小时，X上的讨论就炸了——"Kaiming出品，必属精品"。

第二件事是清华系团队面壁智能开源了新一代「小钢炮」MiniCPM-V 4.6。

这款模型在Artificial Analysis的智能指数上拿了13分，比Qwen3.5-0.8B高出整整3个点，却只有它1/19的推理token消耗量。而且它仅1.3B，一张4090就能“爆改”。

同一天发生的两件事都在指向一个问题：AI行业正在经历一个微妙的转折，从"堆算力"转向"省算力"。

2026上半年，当DeepSeek V4、Qwen3.5、Gemma 4这些大厂还在卷千亿参数时，端侧小模型的已经迎来了新一轮浪潮，如今社区最大的声音已经不是"谁家模型最大"，而是"谁家模型最小、最快、最省硬件"。

算力降维：从"堆H100"到"一张4090就够了"

面壁智能这次开源的MiniCPM-V 4.6，最炸裂的不是参数规模本身，而是效率。

先看一组数据：在Artificial Analysis的智能指数测试中，MiniCPM-V 4.6以5.4M output token完成全部测试，同期测试的Qwen3.5-0.8B非推理版用了101M，推理版用了233M。前者是后者的1/19和1/43。

1/43是什么概念？别人做43次推理的算力，它能做43次。

再看吞吐量：在256并发、1000张图像的高压测试下，MiniCPM-V 4.6单张RTX 4090的吞吐量比Qwen3.5-0.8B高出1.6倍。

清华系的1.3B"小钢炮"，同样把硬件门槛拉到了极致，一张消费者级别的RTX 4090就能跑。不需要H100，不需要A100。一台游戏显卡就能部署AI模型做二次开发。放在一年前，这是不敢想的。

这些数据放在一起，指向同一个结论：AI的参数竞赛正在让位于效率竞赛。

一位曾经在Meta和momenta任职，目前现在做具身创业的研究者向雷峰网表示，小模型在端侧的优势不是理论上的，是实打实的商业选择。"大多数用户不需要一个能写论文的模型，他们需要的是一个能随时响应、不掉线的模型"。

另一位高通的负责人也向雷峰网表示了类似观点：“参数越少，越容易在本地做微调、越容易适配每个人的使用习惯。个人AI时代，模型不需要记住全人类的知识，只需要记住你一个人的就够了"。

沿着这条思路往下看，你会发现小模型干的远远不只是"省算力"这么简单。

架构换道：从"预测下一个词"到"连续空间扩散"

何恺明的ELF，走了一条和GPT完全不同的路。

先搞清楚一个背景。两年多来，AI对话模型的根基几乎都是"预测下一个词"，把一句话拆成一个个token，依次猜下一个该是什么。这条路GPT证明了有效，但也有一条为人熟知的软肋：生成速度慢、且没法回头修改已经生成的词。

扩散模型在图像领域早就证明了"不按顺序也能生成高质量内容"，Stable Diffusion从一团噪声逐步恢复为一张图像，比自回归生成灵活得多。但在语言领域，这条路一直走得磕磕绊绊。

问题出在哪？现有的大多数扩散语言模型（DLM）虽然在"做扩散"，但操作的对象仍然是离散token，本质上还是在有限的离散空间里"洗牌"，没有真正发挥扩散的连续优势。

何恺明团队的解法干净利落：全程留在连续embedding空间里去噪，只在最后一步离散化成文字。

这就像以前做雕塑，是一块块往上堆泥巴（顺序生成每个token）；现在是把一整块石头里的多余部分全部磨掉（在连续空间逐次去噪），最后一步才刻上细节。效率更高，而且能全局统筹。

这种解法起手就和之前完全不一样。所以ELF 105M参数、45B训练token、32步采样，就跑赢了现有的DLM方案，不需要额外蒸馏。

沿着架构创新的方向再看MiniCPM-V 4.6。它采用LLaVA-UHD v4架构，视觉编码器的计算量降低了约50%。这意味着，处理一张3136×3136的高分辨率图像，在RTX 4090上只需要75.7ms。以前这是云端的活，现在端侧芯片就能干。

从"预测下一个词"到"连续空间中去噪"，从"云端算力"到"端侧芯片"，这两条看似独立的创新线，正在指向同一个方向：AI模型的底层架构，正在从"一个超大的黑箱"变成"一个精巧的、分工明确的小系统"。

架构变了，生态也会变。小，正在成为新的"大"。

拉开AI轻量化浪潮的序幕

根据AI科技评论的观察，目前市场上关于AI轻量化的三个变化正在发生。

变化一：端侧AI从概念到标配。MiniCPM-V 4.6已经能在手机上跑，不需要联网，不需要云。2026年下半年，你会看到更多手机厂商把端侧模型作为卖点，直接打出"本地跑模型"的旗号。

变化二：架构创新正在打破Scaling Law的垄断。ELF证明了语言模型不一定非要自回归。MiniCPM证明了1.3B也能打。Scaling Law说"越大越好"，但ELF和MiniCPM说"够用就好，够快更好"。当架构创新成为新的竞争力源头，"堆参数"的军备竞赛模式正在失效。

变化三：商业模式与落地场景由“算力竞赛”转向“成本优化”。企业端不再盲目追大，多数 B 端场景如智能客服、文档辅助等开始倾向于定制化的轻量级模型，因为其推理成本仅为超大模型的数十分之一，更符合商业闭环。

何恺明下场做语言模型，面壁开源第五代端侧模型，高通押注个人AI。站在2026年5月回头看，这些不是孤立的新闻。它们拼出了同一个信号：AI轻量化浪潮的序幕已经拉开。

AI 的未来不再是“越大越好”，而是“在足够的聪明度下，越轻越贵”。如何做更好的小模型，这或许才是2026年AI行业最值得关注的方向。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

同一天两件大事！小模型直接掀翻千亿参数，走向效率为王

两年联姻一地鸡毛，传苹果OpenAI濒临决裂

103岁和86岁老人认识3个月"闪婚"：孤独感消失了

103岁和86岁老人认识3个月"闪婚"：孤独感消失了

德约科维奇买的球队，从第6级联赛升入法甲

方媛回应住男生单人间：女孩的配得感

特朗普的北京时刻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

海南楼市新政要出！拟调公积金贷款额度，最高可贷168万！

看《给阿嬷的情书》，带纸巾，别带懂王

15幅 丹麦画家Carsten Henrichsen风景油画

专家揭秘干细胞回输的安全风险

乌克兰首都基辅遭空袭 死亡人数增至12人

双零重力座椅/AI智能体/调光天幕启境GT7内饰发布

15幅丹麦画家Carsten Henrichsen风景油画

乌克兰首都基辅遭空袭死亡人数增至12人