网易首页 > 网易号 > 正文 申请入驻

8G 内存的手机,能跑多大的模型?|MiniCPM-V 4.6 开源

0
分享至

端侧模型

面壁的 MiniCPM-V 4.6 今天开源,1.3B 大小

这是 MiniCPM 系列的模型,能够轻松跑在主流手机中,支持多模态

架构是 SigLIP2-400M 视觉编码器加 Qwen3.5-0.8B 语言模型。多模态综合能力在同尺寸模型中排第一,与原版的 Qwen3.5-0.8B 相比,有以下核心突破:

  • 基于 vLLM 的 token 吞吐量,是 Qwen3.5-0.8B 的 1.5 倍

  • 在 AA 评测中,以 2.5% 的token量,超过了Qwen3.5-0.8B

然后,今天就能把这款端侧模型,下载到手机里:http://testflight.apple.com/join/yNKyFZwW


以上为该模型的简明信息,下面的内容,则是能成为大家的饭桌谈资

  • 8G 内存,能跑多大的模型?

  • 为什么模型需要量化,怎么进行换算?

  • 未来几年,为啥我们只能跑 1B 的端侧模型?

  • 端侧模型的技术实现,有哪些要点?

模型占多少内存

我尽量用简单的语言,解释模型尺寸和内存占用的关系,这里我先放一张图,帮助大家直观理解,在常见的 int4 量化下,不同尺寸的模型要多少内存


在上面的图里,你会发现模型的内存占用分为两块:模型权重 + KV Cache。前者是模型装载所需要的内存,而后者则是上下文长度所需要的内存,咱们分开来说

模型权重

模型训练完之后,默认用 16 位浮点数(FP16)存储。对于纯粹的语言模型来说,一个参数占 2 个字节,1.3B 参数就是 2.6GB,8B 参数就是 16GB

对于 DeepSeek R1 这个模型,它的默认大小是 671B,也就是需要 1342 GB 内存的显卡才能跑起来...等等!这似乎和大家的记忆不对,看之前很多人拿着 192 GB 的 Mac 就跑起来 R1 了,这是怎么回事儿?

这里用到了一种手段,叫量化:减少参数的储存位数,把模型权重压小

比如 FP16 用 16 位存一个小数,能表示 65,536 种不同的值,现在给他压到 8 位(Q8 或 INT8),只能表示 256 种值,存储空间减半。压到 4 位(Q4 或 INT4),只能表示 16 种值,空间再减半;当然,还可以继续还可以继续压到 3 位、2 位...那么,量化代价是什么?精度下降得越来越快,也就是变笨了

诶...好像在看到量化的时候,大家好像对于精度的说法好像不太一样,比如 4-bit 量化,有的地方说什么 int4,有的地方说什么 Q4,这特么又是什么东西?其实这是两套常见标准,同一个精度等级、不同工具链里,叫的不同名字:

  • Q 系列(Q2、Q3、Q4、Q5、Q8)是 llama.cpp 和 Ollama 用的 GGUF 格式,手机和 PC 本地部署走这条路

  • INT 系列(INT4、INT8)是 vLLM 和 TensorRT 用的标准整数量化,云端部署走这个

虽然不是等价,但这些东西大致是属于同一档的:Q4_K_M 对应的是 INT4Q8_0 则是对应 INT8

此外比如 AWQ 和 GPTQ,也是 4-bit 量化,原理不同但精度等级和 INT4 / Q4 一样.... Q4、INT4、AWQ、GPTQ 四个名字会以为是四种不同的东西,但他们都是 4-bit 量化,区别在实现方式和适配的推理框架,这里我做了一个精度对照表,给大家看看


而在往下的这张表,则是列了从 2-bit 到 FP16,不同参数的模型,能吃掉多少内存


KV Cache

在我们调用模型的时候,总能看到模型有个「最大上下文」,为什么要有这个限制呢?甚至有些 MaaS 平台,在上下文过长的时候,还会额外进行收费,这又是为什么呢?

原理其实可以用一句话解释:长上下文,会有更多的 KV Cache,会占用更多的内存,推理会更高

KV Cache 是啥呢?在模型跑起来之后,所有的上下文信息,都会以 token 的形式在内存里存一份 Key 和一份 Value,用来做注意力计算,然后不断的推导出下一个 Token 是什么。因此,上下文越长,占的内存就越大

对了,大模型生成 Token 的原理之前有聊过,没印象的可以来这里复习:

这里我做了一张图,直观比较一下不同长度上下文的话,会占据多少内存


当然,上面这些是按典型 dense Transformer 结构做的近似估算,实际 KV Cache 会随层数、KV heads、head dim、GQA/MQA 结构、batch size 和 KV dtype 变化,这里就不展开了

除了常规的文本 KV Cache 外,多模态模型还有一些额外开销,就是视觉 token。这个东西和文本一样占 KV Cache,数量取决于图片分辨率和压缩方式

手机只跑得动 1B

那么问题回来了,现在一部主流的手机,能跑得下多大的模型呢?

现在的主打款手机,比如 iPhone 17,运行内存(RAM)通常是 8 GB 左右。在这里,系统和常驻的 App 通常会吃掉一半多的内存,能分给大模型的也就是 2~3GB。对着看上面的内存表,1.3B 的模型还是非常够吃的,2B 开始可能就会紧张了

对于主流新机来说,2B 以内的模型,是当下唯一的选择


如果把视角放宽,希望大多数人都能用上端侧算力,哪又将如何呢?对于最广泛存在的中端手机,本身只有大概 6GB RAM,1B 可能就是唯一的选择

或许有的朋友可能会问:以后大家的运行内存,会不会大一些?啊哈哈哈哈哈哈,最近半年 DDR5 内存价格涨的亲妈不认,各厂商比如三星、海力士、镁光等等的都把产能丢去了做 AI 用的 HBM,短时间似乎也不太可能有更多的消费级内存流出

也就是说:未来两年内存都不太会宽裕,那么手机上能跑的多模态模型大概就是 1~2B

顺便吐槽下...这两天谷歌 Pixel 11 配置曝光,由于内存不够用的,标准版 RAM 从 12GB 砍到 8GB,Pro 系列从 16GB 降到 12GB。同一时间,国内多家手机厂商也在今年 3 月调了价

更大但更快

回过头来让我们在仔细看看 MiniCPM-V 4.6 这款 1.3B 的模型,在 vLLM 上跑高并发测试(256 张 1344×1344 图片并发),单卡 token 吞吐量达到 2624 token/s。处理 3136×3136 分辨率的高清大图,首次响应延迟 75.7ms,并且对于高分辨率的图片,支持优化还很不错


首响延迟随分辨率变化


高并发吞吐量

根据公开的 40 多项 benchmark,MiniCPM-V 4.6 综合能力在 1B 级别排第一,多数图文理解任务领先


综合性能 Instruct 对比


Artificial Analysis Intelligence Index

此外,这个模型还有个 Thinking 版本,开启后在数学和逻辑任务上有额外提升


与这个这个模型一起发布的,还有个 arXiv peper,是面壁联合清华一起发的,在这里:https://arxiv.org/abs/2605.08985


这个 Paper 里有几个发现,我也给摘出来

切片编码比全局编码好 在做了大量对照实验后,研究团队发现,在全局编码下,文字、图表这类精细元素容易被全局信息稀释。切片编码让编码器专注于每个小区域内的细粒度模式,分辨率越高优势越大


LLaVA-UHD v4 架构

把压缩从 ViT 外面搬到 ViT 里面,能够有效的降低浮点运算 研究团队把一个 4 倍压缩模块插到 ViT 的第 6 层之后。从第 7 层开始,后面所有层只需要处理原来 1/4 的 token。视觉编码阶段的浮点运算量从 3555G 降到 1573G,减了 55.8%。叠加 4 倍的 post-ViT MLP 压缩后,总共是 16 倍压缩

不要随机初始化,而是参数复用:直接随机的话,会炸;但如果把压缩模块的注意力投影、MLP 权重全部从相邻的预训练层拷贝过来。这样压缩模块从第一步训练开始就在预训练的表征流形上工作,不需要从零学习

还有一点就是:16 倍压缩,在云端高并发场景,能够发挥很大价值,快手 2025 年推出的 OneRec 推荐大模型,处理短视频的封面图、字幕、OCR、ASR 这些多模态信息时,用的就是上一代 MiniCPM-V-8B。OneRec 上线后承接了快手短视频推荐主场景 25% 的请求量


快手 OneRec 论文


OneRec tokenizer 架构

4090 就能微调

考虑到这个 1.3B 的模型实在是太小了,所以 4090 就能进行全量微调

所以吧...如果你正在读书,现在有正当的理由去买 4090 了 hhhhhh

为了方便大家上手,面壁在微调这块,提供了多种量化格式的预量化模型,以及部署教程也放出来了:

→ vLLM:github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/vllm/minicpm-v4_6_vllm_zh.md

→ llama.cpp:github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/llama.cpp/minicpm-v4_6_llamacpp.md

→ Ollama:github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/ollama/minicpm-v4_6_ollama_zh.md

→ iOS TestFlight:testflight.apple.com/join/yNKyFZwW

最后

MiniCPM-V 这个系列的模型,参数量从 2.8B 做到 8B 再压到 1.3B,也算是见证了行业的趋势,现在内存越来越贵,这种小尺寸的模型,还是值得一看的

以及,MiniCPM 这套东西,虽然媒体声量不大,但实际上非常多的车机在用,包括不仅限于吉利、上汽大众、广汽、马自达、红旗等等...

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗有救了?美军不宣而战,德黑兰至少有三个方向能破局

伊朗有救了?美军不宣而战,德黑兰至少有三个方向能破局

健身狂人
2026-05-13 17:36:47
创业板迎来第二只千元股!中际旭创一度突破1000元,近一年上涨956%

创业板迎来第二只千元股!中际旭创一度突破1000元,近一年上涨956%

界面新闻
2026-05-12 11:58:06
世乒赛结束后,国乒“宿敌”锐评孙颖莎,句句直戳张本美和心窝

世乒赛结束后,国乒“宿敌”锐评孙颖莎,句句直戳张本美和心窝

阿讯说天下
2026-05-13 14:30:45
英媒:如果阿隆索接任切尔西主帅,有四名皇马球星可能加盟

英媒:如果阿隆索接任切尔西主帅,有四名皇马球星可能加盟

懂球帝
2026-05-13 13:04:30
《主角》胡三元做梦想不到,他入狱后,易青娥被强奸、出轨、囚禁

《主角》胡三元做梦想不到,他入狱后,易青娥被强奸、出轨、囚禁

落雪听梅a
2026-05-13 10:24:05
贝索斯花了7000万,让桑切斯在Met Gala出尽风头,梅根没收到邀请

贝索斯花了7000万,让桑切斯在Met Gala出尽风头,梅根没收到邀请

小书生吃瓜
2026-05-11 15:36:21
医生发现:每天早起后先排便的人,用不了半年身体或迎来4改变

医生发现:每天早起后先排便的人,用不了半年身体或迎来4改变

坠入二次元的海洋
2026-05-13 17:46:00
那年冬天我和堂姐去赶集,在大姑家住宿,大姑的做法让我至今难忘

那年冬天我和堂姐去赶集,在大姑家住宿,大姑的做法让我至今难忘

人间百态大全
2026-05-11 06:45:04
数学逆袭最快的黄金顺序,照着学,成绩蹭蹭涨

数学逆袭最快的黄金顺序,照着学,成绩蹭蹭涨

户外阿毽
2026-05-12 16:57:29
最后一位唐臣:全族200口,宴席上从容赴死,为李唐守尽最后臣节

最后一位唐臣:全族200口,宴席上从容赴死,为李唐守尽最后臣节

老达子
2026-05-13 06:50:03
辛芷蕾主演!好莱坞将拍摄首位华裔明星黄柳霜的传记电影

辛芷蕾主演!好莱坞将拍摄首位华裔明星黄柳霜的传记电影

极目新闻
2026-05-13 13:57:34
快讯!日本新消息,跟中国有关!

快讯!日本新消息,跟中国有关!

达文西看世界
2026-05-13 08:23:29
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
争冠生死战!曼城主场痛宰水晶宫?这波我站蓝月!

争冠生死战!曼城主场痛宰水晶宫?这波我站蓝月!

野渡舟山人
2026-05-13 19:15:05
5月13日,人社部2026年养老金调整通知公布了吗?几个信号很关键

5月13日,人社部2026年养老金调整通知公布了吗?几个信号很关键

社保小达人
2026-05-13 09:42:56
CCTV5直播上海男篮VS北京队,5个位置球员对比,谁强谁弱一目了然

CCTV5直播上海男篮VS北京队,5个位置球员对比,谁强谁弱一目了然

体育大学僧
2026-05-13 10:09:51
腾讯控股:一季度净利润同比增长21%至581亿元

腾讯控股:一季度净利润同比增长21%至581亿元

界面新闻
2026-05-13 16:35:03
一把牌输掉十几亿,欠200亿跑路,如今金立手机创始人在印尼翻盘了

一把牌输掉十几亿,欠200亿跑路,如今金立手机创始人在印尼翻盘了

毒sir财经
2026-04-29 16:21:18
何穗母亲节首晒儿子合照,公开儿子小名,源自陈伟霆

何穗母亲节首晒儿子合照,公开儿子小名,源自陈伟霆

一窥究竟
2026-05-12 14:45:43
著名演员在沪病逝,经典作品在电视黄金时段连续播放多年,网友:小时候天天听

著名演员在沪病逝,经典作品在电视黄金时段连续播放多年,网友:小时候天天听

上观新闻
2026-05-13 11:38:21
2026-05-13 20:23:00
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
436文章数 53关注度
往期回顾 全部

科技要闻

腾讯一季度营收1964.6亿元 同比增9%

头条要闻

出租车司机被两老外"拐跑":3万车费从海南开到黑龙江

头条要闻

出租车司机被两老外"拐跑":3万车费从海南开到黑龙江

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

盘中最高4041.99点!创业板创历史新高

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

亲子
游戏
本地
公开课
军事航空

亲子要闻

宝蓝在公园玩,地垫上的字母都消失了,我们一起帮宝蓝找找吧~

这也有怀旧服?《守望先锋》经典版2016限时活动上线

本地新闻

用苏绣的方式,打开江西婺源

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

沙特被指3月曾对伊朗发动多次“报复性”空袭

无障碍浏览 进入关怀版