![]()
大模型技术从“云端”向“终端”转移的过程中,实用主义终将战胜性能堆砌。
作者丨陈嘉欣
编辑丨马晓宁
5月13日,AI圈同时炸了两件事。
第一件事是顶级CV学者何恺明带着MIT团队,发布了人生第一个语言模型ELF。
105M参数,不走GPT自回归的老路,全程在连续embedding空间里做扩散,最后一步才离散化回文字。发布仅几小时,X上的讨论就炸了——"Kaiming出品,必属精品"。
![]()
第二件事是清华系团队面壁智能开源了新一代「小钢炮」MiniCPM-V 4.6。
这款模型在Artificial Analysis的智能指数上拿了13分,比Qwen3.5-0.8B高出整整3个点,却只有它1/19的推理token消耗量。而且它仅1.3B,一张4090就能“爆改”。
![]()
同一天发生的两件事都在指向一个问题:AI行业正在经历一个微妙的转折,从"堆算力"转向"省算力"。
2026上半年,当DeepSeek V4、Qwen3.5、Gemma 4这些大厂还在卷千亿参数时,端侧小模型的已经迎来了新一轮浪潮,如今社区最大的声音已经不是"谁家模型最大",而是"谁家模型最小、最快、最省硬件"。
01
算力降维:从"堆H100"到"一张4090就够了"
面壁智能这次开源的MiniCPM-V 4.6,最炸裂的不是参数规模本身,而是效率。
先看一组数据:在Artificial Analysis的智能指数测试中,MiniCPM-V 4.6以5.4M output token完成全部测试,同期测试的Qwen3.5-0.8B非推理版用了101M,推理版用了233M。前者是后者的1/19和1/43。
![]()
1/43是什么概念?别人做43次推理的算力,它能做43次。
再看吞吐量:在256并发、1000张图像的高压测试下,MiniCPM-V 4.6单张RTX 4090的吞吐量比Qwen3.5-0.8B高出1.6倍。
![]()
清华系的1.3B"小钢炮",同样把硬件门槛拉到了极致,一张消费者级别的RTX 4090就能跑。不需要H100,不需要A100。一台游戏显卡就能部署AI模型做二次开发。放在一年前,这是不敢想的。
这些数据放在一起,指向同一个结论:AI的参数竞赛正在让位于效率竞赛。
一位曾经在Meta和momenta任职,目前现在做具身创业的研究者向雷峰网表示,小模型在端侧的优势不是理论上的,是实打实的商业选择。"大多数用户不需要一个能写论文的模型,他们需要的是一个能随时响应、不掉线的模型"。
另一位高通的负责人也向雷峰网表示了类似观点:“参数越少,越容易在本地做微调、越容易适配每个人的使用习惯。个人AI时代,模型不需要记住全人类的知识,只需要记住你一个人的就够了"。
沿着这条思路往下看,你会发现小模型干的远远不只是"省算力"这么简单。
02
架构换道:从"预测下一个词"到"连续空间扩散"
何恺明的ELF,走了一条和GPT完全不同的路。
先搞清楚一个背景。两年多来,AI对话模型的根基几乎都是"预测下一个词",把一句话拆成一个个token,依次猜下一个该是什么。这条路GPT证明了有效,但也有一条为人熟知的软肋:生成速度慢、且没法回头修改已经生成的词。
扩散模型在图像领域早就证明了"不按顺序也能生成高质量内容",Stable Diffusion从一团噪声逐步恢复为一张图像,比自回归生成灵活得多。但在语言领域,这条路一直走得磕磕绊绊。
问题出在哪?现有的大多数扩散语言模型(DLM)虽然在"做扩散",但操作的对象仍然是离散token,本质上还是在有限的离散空间里"洗牌",没有真正发挥扩散的连续优势。
何恺明团队的解法干净利落:全程留在连续embedding空间里去噪,只在最后一步离散化成文字。
![]()
这就像以前做雕塑,是一块块往上堆泥巴(顺序生成每个token);现在是把一整块石头里的多余部分全部磨掉(在连续空间逐次去噪),最后一步才刻上细节。效率更高,而且能全局统筹。
这种解法起手就和之前完全不一样。所以ELF 105M参数、45B训练token、32步采样,就跑赢了现有的DLM方案,不需要额外蒸馏。
沿着架构创新的方向再看MiniCPM-V 4.6。它采用LLaVA-UHD v4架构,视觉编码器的计算量降低了约50%。这意味着,处理一张3136×3136的高分辨率图像,在RTX 4090上只需要75.7ms。以前这是云端的活,现在端侧芯片就能干。
从"预测下一个词"到"连续空间中去噪",从"云端算力"到"端侧芯片",这两条看似独立的创新线,正在指向同一个方向:AI模型的底层架构,正在从"一个超大的黑箱"变成"一个精巧的、分工明确的小系统"。
架构变了,生态也会变。小,正在成为新的"大"。
03
拉开AI轻量化浪潮的序幕
根据AI科技评论的观察,目前市场上关于AI轻量化的三个变化正在发生。
变化一:端侧AI从概念到标配。MiniCPM-V 4.6已经能在手机上跑,不需要联网,不需要云。2026年下半年,你会看到更多手机厂商把端侧模型作为卖点,直接打出"本地跑模型"的旗号。
变化二:架构创新正在打破Scaling Law的垄断。ELF证明了语言模型不一定非要自回归。MiniCPM证明了1.3B也能打。Scaling Law说"越大越好",但ELF和MiniCPM说"够用就好,够快更好"。当架构创新成为新的竞争力源头,"堆参数"的军备竞赛模式正在失效。
变化三:商业模式与落地场景由“算力竞赛”转向“成本优化”。企业端不再盲目追大,多数 B 端场景如智能客服、文档辅助等开始倾向于定制化的轻量级模型,因为其推理成本仅为超大模型的数十分之一,更符合商业闭环。
何恺明下场做语言模型,面壁开源第五代端侧模型,高通押注个人AI。站在2026年5月回头看,这些不是孤立的新闻。它们拼出了同一个信号:AI轻量化浪潮的序幕已经拉开。
AI 的未来不再是“越大越好”,而是“在足够的聪明度下,越轻越贵”。如何做更好的小模型,这或许才是2026年AI行业最值得关注的方向。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.