网易首页 > 网易号 > 正文 申请入驻

大模型越做越大,面壁智能反手做了个小100倍还能看图的

0
分享至

面壁好轴啊,

大家做模型都在比谁更大。

参数更大,上下文窗口更大,反正什么都往天花板往上顶,

问题是,Agent如果真的要进入现实世界,它还得变成一种更像水电煤的东西。

便宜,稳定,到处能跑。

说实话,要是没有Coding Plan和五小时额度刷新,10块百万token我都嫌贵。

毕竟,如果像Hermes或者OpenClaw这种重型开发任务只能跑一两个对话,如果是多个Skill混合使用的话,也只能跑20-50个回合。

所以我看到面壁这次发MiniCPM-V4.6的时候,第一反应其实是又捞着了。

1.3B,

能看图,

还能跑得很快,


huggingface.co/openbmb/MiniCPM-V-4.6

隔壁随便找一个都是500B往上甚至1T的。

面壁的MiniCPM-V一直是一个很有代表性的端侧模型系列。从2024年4月发布以来,

它打的就不是巨无霸路线,而是小尺寸,高效率,端侧可用。

这次V4.6小到什么程度呢,你可以把它理解成一个能理解图文,还能被消费级显卡随便拿去再训练成适用于各种垂直限时任务的脚手架模型。

在公开评测里,MiniCPM-V 4.6的多模态综合能力超过了Qwen3.5-0.8B和Gemma4-E2B-it。


在AA评测里的token消耗非常低,1.3B非推理版本运行只消耗5.4Mtoken,只有Qwen3.5-0.8B非推理版101M的1/19,也只有Qwen3.5-0.8B推理版本233M的1/43。


如果只是跑一次demo,

模型慢点贵点都还能忍。

但真实业务里延迟就是体验,吞吐就是成本,

显存就是预算,功耗就是影响落地。

手机不会因为模型很聪明就多出一块GPU。

一个线上系统也不会因为你榜单分数好看,就允许每个请求都烧掉一大把算力。

所以MiniCPM-V 4.6要讲的不是,端侧模型也能做多模态。

而是大模型多模态能力终于开始变得更像一个可以四通八达到处有用的热插拔基础组件了。

说到这里,干脆来看看它背后的技术创新吧。


技术文档我打包好了也,回复面壁就好

多模态模型看图,最麻烦的一步是它要先把图片拆成一堆视觉token。

图片越大,越清楚,里面的信息越多,视觉token就越多。

视觉token一多,后面的成本就上去了。

你可以把它想成搬家。

如果一开始把所有东西都原封不动搬上车,后面再说我要节省空间就没啥空隙了,

很多多模态模型的做法,就是在ViT(Vision Transformer 视觉模型)之后再压缩token。

这样确实可以减轻后面语言模型的负担,但前面的视觉编码器已经吃过一遍大图的计算开销了。

MiniCPM-V 4.6背后的LLaVA-UHD v4优化的点,是把视觉token压缩提前到ViT内部。

更早压,更省空间。


让后面大部分ViT层一开始就少处理很多token。视觉编码阶段的FLOPs(浮点运算次数)降低55.8%。

当然,做起来没那么容易。

因为不能粗暴地把视觉token砍掉,砍猛了,图像表征就坏了,模型可能省了算力,但也看不清了。

LLaVA-UHD v4里面用了早期ViT内压缩模块,配合窗口注意力,让邻近token先做上下文交互,再通过复用相邻预训练ViT层参数,尽量减少对原有视觉表征的扰动。

翻译成人话就是,它不是一口气把所有部分都压缩。


它是在尽量不伤筋动骨的情况下,把最费算力的部分提前瘦掉。

这就是MiniCPM-V 4.6能又小又快的关键之一。

顺着这个再聊,就到了另一个很重要的点,4倍和16倍混合视觉token压缩。

我觉得这个点挺适合拿普通相机来理解。

4倍压缩更像高清模式,保留更多细节,适合追求识别精度的时候用。

16倍压缩更像高速省电模式,画面信息压得更狠,但推理速度会更快,成本也更低。

过去很多模型的技术路线是二选一,要么偏精度,要么偏速度。

到了MiniCPM-V 4.6,

它开始把两种压缩率混在一起用,能切换两类完全不同的场景。


MiniCPM-V 4.6已经可以在手机上用了

一类是端侧,

手机,电脑,车机,智能家具,这些设备对算力功耗很敏感,我不指望它们像云端机房一样随便烧。

另一类是云端高并发。

很多业务不是一个人问模型一次,而是几万个请求同时涌进来。

每个请求还要求对很多候选结果做理解,打分,召回,排序。

MiniCPM-V 4.6要解决的是两个问题。

普通设备怎么运行AI

以及高并发怎么省钱。

隔壁快手OneRec推荐大模型在处理视频输入里的字幕,标签,ASR(语音识别),OCR(字符识别),封面图这些多模态表征时,就用到了MiniCPM-V-8B,OneRec承接了短视频推荐主场景25%的请求。


在这种地方,模型不能像GPT 5.5一样想个5分钟,然后憋一句稳稳接住你。

它只需要提供一点点更好的信号。

比如这个封面图到底是什么内容。

这段视频更像美食教程还是探店吐槽。

这个字幕里有没有关键品牌名。

这个用户当下更可能想看什么。

单看每一次判断,好像都不复杂。

但它会被放大到几千万,几亿次请求里。

所以这种模型要的不是单次表演有多好。

它要的是够快,够轻,够稳,够便宜。

光是能让整体系统效果往上抬一点点,

它就已经很值钱了。

这也是我这三年越来越强烈的一个感受。

很多人聊AI,还是喜欢盯着最强模型。

谁超过了GPT,谁逼近了Claude,

这些当然重要。

但真正能让AI渗入现实世界的,

往往不是一两个最强大脑,而是一堆稳定不需要烦恼token数的端侧模型。

它们不一定会都被用户看见。

但它们会让一个系统变得更聪明一点,更快一点,更省钱一点。

这就是小模型最容易被低估的地方。

这次面壁还做整套从微调到部署的工具链。

微调端支持ms-swift和LLaMA-Factory,部署端适配vLLM、SGLang、llama.cpp、Ollama。

甚至消费级显卡,RTX4090,也可以跑通微调流程。

尺寸模型的生命力,本来就在于被改造。

我们不需要把MiniCPM-V 4.6当成一个万能助手。

它更适合去做一个垂直文档解析模型,一个OCR整理模型,一个本地相册理解模型,一个摄像头画面异常识别模块。

它在这些场景里,不需要什么都会。

它只要把一件事做得够稳快便宜就好了。

从这个角度看,

MiniCPM-V 4.6最值得看的地方,

确实不是它又刷了哪个榜。

而是它把多模态往基础设施的方向,

又推进了一小步。

@ 作者 / 卡尔

最后,感谢你看到这里如果喜欢这篇文章,不妨顺手给我们点赞|在看|转发|评论

如果想要第一时间收到推送,不妨给我个星标

如果你有更有趣的玩法,欢迎在评论区聊聊

更多的内容正在不断填坑中……


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比亚迪车机屏幕小换大 1999元可升级15.6英寸 官方人员回应:定价兼顾市场与用户体验

比亚迪车机屏幕小换大 1999元可升级15.6英寸 官方人员回应:定价兼顾市场与用户体验

快科技
2026-05-13 14:18:26
湖人重建目标曝光:里夫斯成头号副手,中锋和侧翼调整模板浮现

湖人重建目标曝光:里夫斯成头号副手,中锋和侧翼调整模板浮现

新杀猪的秀才
2026-05-12 21:20:20
被福建舰吓坏?美媒曾言:中国新航母排水量12万吨,舰载机105架

被福建舰吓坏?美媒曾言:中国新航母排水量12万吨,舰载机105架

游古史
2026-05-13 14:38:16
一个残酷现实曝光:中印冲突全方位升级,中国越避让,印度越对抗

一个残酷现实曝光:中印冲突全方位升级,中国越避让,印度越对抗

杰丝聊古今
2026-05-13 13:04:03
梦鸽李天一赴美不归?看到85岁李双江“现状”,原来杨洪基没说谎

梦鸽李天一赴美不归?看到85岁李双江“现状”,原来杨洪基没说谎

阿纂看事
2024-11-05 11:54:58
刘雨鑫打卡潮汕天价海鲜!同款濑尿虾对标三亚,价格真相大白

刘雨鑫打卡潮汕天价海鲜!同款濑尿虾对标三亚,价格真相大白

行者聊官
2026-05-11 12:23:14
山姆退休金曝光,安娴直言自己也可以领一半,60多岁还要工作!

山姆退休金曝光,安娴直言自己也可以领一半,60多岁还要工作!

小叨娱乐
2026-05-11 20:56:33
被人追打疯跑冲向武警大门,哨兵一出,当场腿软不敢越线

被人追打疯跑冲向武警大门,哨兵一出,当场腿软不敢越线

阿芒娱乐说
2026-05-12 13:14:02
李想建议所有公司不裁人,称理想不会主动裁员,无人驾驶时代,买车的人会更多:AI时代的人才和以前的标准不一样,裁人很容易把最好的裁掉

李想建议所有公司不裁人,称理想不会主动裁员,无人驾驶时代,买车的人会更多:AI时代的人才和以前的标准不一样,裁人很容易把最好的裁掉

大风新闻
2026-05-13 15:12:14
她和奥运冠军马琳离婚分走千万,再婚嫁给金融学霸,如今怎样了?

她和奥运冠军马琳离婚分走千万,再婚嫁给金融学霸,如今怎样了?

优趣纪史记
2025-12-28 14:47:11
回顾:2005年梁海玲器官被切后惨死豪宅,有人透露:她知道的太多

回顾:2005年梁海玲器官被切后惨死豪宅,有人透露:她知道的太多

历来都很现实
2024-09-24 23:58:16
没想到中国会来真的?荷兰偷鸡不成蚀把米,半导体与汽车双双沦陷

没想到中国会来真的?荷兰偷鸡不成蚀把米,半导体与汽车双双沦陷

纯白的梵唱
2026-05-13 03:32:00
1950年,孙立人和秘书黄正就快要捅破那层窗户纸,抱得美人归了

1950年,孙立人和秘书黄正就快要捅破那层窗户纸,抱得美人归了

小马姨
2026-05-13 11:32:41
辟谣!网传埃泽1000万夺冠奖金为假,附加奖金最多约750万镑

辟谣!网传埃泽1000万夺冠奖金为假,附加奖金最多约750万镑

懂球帝
2026-05-13 13:14:09
末轮翻盘!热议U17国足神迹:终没折在算术题上 日本教练原地下课

末轮翻盘!热议U17国足神迹:终没折在算术题上 日本教练原地下课

风过乡
2026-05-13 05:57:37
深成指站上16000点

深成指站上16000点

界面新闻
2026-05-13 13:47:31
今年俄罗斯胜利日阅兵,为何唯独朝鲜派兵参加?中国怎么没派

今年俄罗斯胜利日阅兵,为何唯独朝鲜派兵参加?中国怎么没派

刘振起观点
2026-05-10 16:05:00
顶层家庭绝不允许孩子碰的两件事,看似不起眼,却能毁了孩子一生

顶层家庭绝不允许孩子碰的两件事,看似不起眼,却能毁了孩子一生

心理观察局
2026-05-09 08:59:05
忍无可忍!堵塞+长期霸占!东莞对这些车不客气了!

忍无可忍!堵塞+长期霸占!东莞对这些车不客气了!

智慧生活笔记
2026-05-13 12:18:55
央视主持人朱迅:生命终将结束,为何不勇敢面对生命的终点呢?

央视主持人朱迅:生命终将结束,为何不勇敢面对生命的终点呢?

标体
2026-05-11 11:36:14
2026-05-13 16:16:49
卡尔的AI沃茨 incentive-icons
卡尔的AI沃茨
前大厂算法工程师,3家科技公司技术总监|致力打造最系统的Al学习体系,让1万人通过Al提高生产力
261文章数 134关注度
往期回顾 全部

科技要闻

谷歌剧透安卓重大升级 Gemini深度集成底层

头条要闻

女生没电脑每天在电竞馆学习十几个小时 女店主:免费

头条要闻

女生没电脑每天在电竞馆学习十几个小时 女店主:免费

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

盘中最高4041.99点!创业板创历史新高

汽车要闻

4月BBA无一款车型销量破万 新能源渗透率首破60%

态度原创

健康
手机
家居
本地
军事航空

干细胞能让人“返老还童”吗

手机要闻

消息称追觅AURORA手机将于今年第四季度发布

家居要闻

内在自叙,无域有方

本地新闻

用苏绣的方式,打开江西婺源

军事要闻

沙特被指3月曾对伊朗发动多次“报复性”空袭

无障碍浏览 进入关怀版