端侧模型
面壁的 MiniCPM-V 4.6 今天开源,1.3B 大小
这是 MiniCPM 系列的模型,能够轻松跑在主流手机中,支持多模态
架构是 SigLIP2-400M 视觉编码器加 Qwen3.5-0.8B 语言模型。多模态综合能力在同尺寸模型中排第一,与原版的 Qwen3.5-0.8B 相比,有以下核心突破:
基于 vLLM 的 token 吞吐量,是 Qwen3.5-0.8B 的 1.5 倍
在 AA 评测中,以 2.5% 的token量,超过了Qwen3.5-0.8B
然后,今天就能把这款端侧模型,下载到手机里:http://testflight.apple.com/join/yNKyFZwW
![]()
以上为该模型的简明信息,下面的内容,则是能成为大家的饭桌谈资
8G 内存,能跑多大的模型?
为什么模型需要量化,怎么进行换算?
未来几年,为啥我们只能跑 1B 的端侧模型?
端侧模型的技术实现,有哪些要点?
模型占多少内存
我尽量用简单的语言,解释模型尺寸和内存占用的关系,这里我先放一张图,帮助大家直观理解,在常见的 int4 量化下,不同尺寸的模型要多少内存
![]()
在上面的图里,你会发现模型的内存占用分为两块:模型权重 + KV Cache。前者是模型装载所需要的内存,而后者则是上下文长度所需要的内存,咱们分开来说
模型权重
模型训练完之后,默认用 16 位浮点数(FP16)存储。对于纯粹的语言模型来说,一个参数占 2 个字节,1.3B 参数就是 2.6GB,8B 参数就是 16GB
对于 DeepSeek R1 这个模型,它的默认大小是 671B,也就是需要 1342 GB 内存的显卡才能跑起来...等等!这似乎和大家的记忆不对,看之前很多人拿着 192 GB 的 Mac 就跑起来 R1 了,这是怎么回事儿?
这里用到了一种手段,叫量化:减少参数的储存位数,把模型权重压小
比如 FP16 用 16 位存一个小数,能表示 65,536 种不同的值,现在给他压到 8 位(Q8 或 INT8),只能表示 256 种值,存储空间减半。压到 4 位(Q4 或 INT4),只能表示 16 种值,空间再减半;当然,还可以继续还可以继续压到 3 位、2 位...那么,量化代价是什么?精度下降得越来越快,也就是变笨了
诶...好像在看到量化的时候,大家好像对于精度的说法好像不太一样,比如 4-bit 量化,有的地方说什么 int4,有的地方说什么 Q4,这特么又是什么东西?其实这是两套常见标准,同一个精度等级、不同工具链里,叫的不同名字:
Q 系列(Q2、Q3、Q4、Q5、Q8)是 llama.cpp 和 Ollama 用的 GGUF 格式,手机和 PC 本地部署走这条路
INT 系列(INT4、INT8)是 vLLM 和 TensorRT 用的标准整数量化,云端部署走这个
虽然不是等价,但这些东西大致是属于同一档的:Q4_K_M 对应的是 INT4,Q8_0 则是对应 INT8
此外比如 AWQ 和 GPTQ,也是 4-bit 量化,原理不同但精度等级和 INT4 / Q4 一样.... Q4、INT4、AWQ、GPTQ 四个名字会以为是四种不同的东西,但他们都是 4-bit 量化,区别在实现方式和适配的推理框架,这里我做了一个精度对照表,给大家看看
![]()
而在往下的这张表,则是列了从 2-bit 到 FP16,不同参数的模型,能吃掉多少内存
![]()
KV Cache
在我们调用模型的时候,总能看到模型有个「最大上下文」,为什么要有这个限制呢?甚至有些 MaaS 平台,在上下文过长的时候,还会额外进行收费,这又是为什么呢?
原理其实可以用一句话解释:长上下文,会有更多的 KV Cache,会占用更多的内存,推理会更高
KV Cache 是啥呢?在模型跑起来之后,所有的上下文信息,都会以 token 的形式在内存里存一份 Key 和一份 Value,用来做注意力计算,然后不断的推导出下一个 Token 是什么。因此,上下文越长,占的内存就越大
对了,大模型生成 Token 的原理之前有聊过,没印象的可以来这里复习:
这里我做了一张图,直观比较一下不同长度上下文的话,会占据多少内存
![]()
当然,上面这些是按典型 dense Transformer 结构做的近似估算,实际 KV Cache 会随层数、KV heads、head dim、GQA/MQA 结构、batch size 和 KV dtype 变化,这里就不展开了
除了常规的文本 KV Cache 外,多模态模型还有一些额外开销,就是视觉 token。这个东西和文本一样占 KV Cache,数量取决于图片分辨率和压缩方式
手机只跑得动 1B
那么问题回来了,现在一部主流的手机,能跑得下多大的模型呢?
现在的主打款手机,比如 iPhone 17,运行内存(RAM)通常是 8 GB 左右。在这里,系统和常驻的 App 通常会吃掉一半多的内存,能分给大模型的也就是 2~3GB。对着看上面的内存表,1.3B 的模型还是非常够吃的,2B 开始可能就会紧张了
对于主流新机来说,2B 以内的模型,是当下唯一的选择
![]()
如果把视角放宽,希望大多数人都能用上端侧算力,哪又将如何呢?对于最广泛存在的中端手机,本身只有大概 6GB RAM,1B 可能就是唯一的选择
或许有的朋友可能会问:以后大家的运行内存,会不会大一些?啊哈哈哈哈哈哈,最近半年 DDR5 内存价格涨的亲妈不认,各厂商比如三星、海力士、镁光等等的都把产能丢去了做 AI 用的 HBM,短时间似乎也不太可能有更多的消费级内存流出
也就是说:未来两年内存都不太会宽裕,那么手机上能跑的多模态模型大概就是 1~2B
顺便吐槽下...这两天谷歌 Pixel 11 配置曝光,由于内存不够用的,标准版 RAM 从 12GB 砍到 8GB,Pro 系列从 16GB 降到 12GB。同一时间,国内多家手机厂商也在今年 3 月调了价
更大但更快
回过头来让我们在仔细看看 MiniCPM-V 4.6 这款 1.3B 的模型,在 vLLM 上跑高并发测试(256 张 1344×1344 图片并发),单卡 token 吞吐量达到 2624 token/s。处理 3136×3136 分辨率的高清大图,首次响应延迟 75.7ms,并且对于高分辨率的图片,支持优化还很不错
![]()
首响延迟随分辨率变化
![]()
高并发吞吐量
根据公开的 40 多项 benchmark,MiniCPM-V 4.6 综合能力在 1B 级别排第一,多数图文理解任务领先
![]()
综合性能 Instruct 对比
![]()
Artificial Analysis Intelligence Index
此外,这个模型还有个 Thinking 版本,开启后在数学和逻辑任务上有额外提升
![]()
与这个这个模型一起发布的,还有个 arXiv peper,是面壁联合清华一起发的,在这里:https://arxiv.org/abs/2605.08985
![]()
这个 Paper 里有几个发现,我也给摘出来
切片编码比全局编码好 在做了大量对照实验后,研究团队发现,在全局编码下,文字、图表这类精细元素容易被全局信息稀释。切片编码让编码器专注于每个小区域内的细粒度模式,分辨率越高优势越大
![]()
LLaVA-UHD v4 架构
把压缩从 ViT 外面搬到 ViT 里面,能够有效的降低浮点运算 研究团队把一个 4 倍压缩模块插到 ViT 的第 6 层之后。从第 7 层开始,后面所有层只需要处理原来 1/4 的 token。视觉编码阶段的浮点运算量从 3555G 降到 1573G,减了 55.8%。叠加 4 倍的 post-ViT MLP 压缩后,总共是 16 倍压缩
不要随机初始化,而是参数复用:直接随机的话,会炸;但如果把压缩模块的注意力投影、MLP 权重全部从相邻的预训练层拷贝过来。这样压缩模块从第一步训练开始就在预训练的表征流形上工作,不需要从零学习
还有一点就是:16 倍压缩,在云端高并发场景,能够发挥很大价值,快手 2025 年推出的 OneRec 推荐大模型,处理短视频的封面图、字幕、OCR、ASR 这些多模态信息时,用的就是上一代 MiniCPM-V-8B。OneRec 上线后承接了快手短视频推荐主场景 25% 的请求量
![]()
快手 OneRec 论文
![]()
OneRec tokenizer 架构
4090 就能微调
考虑到这个 1.3B 的模型实在是太小了,所以 4090 就能进行全量微调
所以吧...如果你正在读书,现在有正当的理由去买 4090 了 hhhhhh
为了方便大家上手,面壁在微调这块,提供了多种量化格式的预量化模型,以及部署教程也放出来了:
→ vLLM:github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/vllm/minicpm-v4_6_vllm_zh.md
→ llama.cpp:github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/llama.cpp/minicpm-v4_6_llamacpp.md
→ Ollama:github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/ollama/minicpm-v4_6_ollama_zh.md
→ iOS TestFlight:testflight.apple.com/join/yNKyFZwW
最后
MiniCPM-V 这个系列的模型,参数量从 2.8B 做到 8B 再压到 1.3B,也算是见证了行业的趋势,现在内存越来越贵,这种小尺寸的模型,还是值得一看的
以及,MiniCPM 这套东西,虽然媒体声量不大,但实际上非常多的车机在用,包括不仅限于吉利、上汽大众、广汽、马自达、红旗等等...
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.