8G 内存的手机，能跑多大的模型？｜MiniCPM-V 4.6 开源|模态|开源模型

8G 内存的手机，能跑多大的模型？｜MiniCPM-V 4.6 开源

2026-05-13 12:07:42　来源: 赛博禅心

北京举报

分享至

端侧模型

面壁的 MiniCPM-V 4.6 今天开源，1.3B 大小

这是 MiniCPM 系列的模型，能够轻松跑在主流手机中，支持多模态

架构是 SigLIP2-400M 视觉编码器加 Qwen3.5-0.8B 语言模型。多模态综合能力在同尺寸模型中排第一，与原版的 Qwen3.5-0.8B 相比，有以下核心突破：

基于 vLLM 的 token 吞吐量，是 Qwen3.5-0.8B 的 1.5 倍
在 AA 评测中，以 2.5% 的token量，超过了Qwen3.5-0.8B

然后，今天就能把这款端侧模型，下载到手机里：http://testflight.apple.com/join/yNKyFZwW

以上为该模型的简明信息，下面的内容，则是能成为大家的饭桌谈资

8G 内存，能跑多大的模型？
为什么模型需要量化，怎么进行换算？
未来几年，为啥我们只能跑 1B 的端侧模型？
端侧模型的技术实现，有哪些要点？

模型占多少内存

我尽量用简单的语言，解释模型尺寸和内存占用的关系，这里我先放一张图，帮助大家直观理解，在常见的 int4 量化下，不同尺寸的模型要多少内存

在上面的图里，你会发现模型的内存占用分为两块：模型权重 + KV Cache。前者是模型装载所需要的内存，而后者则是上下文长度所需要的内存，咱们分开来说

模型权重

模型训练完之后，默认用 16 位浮点数（FP16）存储。对于纯粹的语言模型来说，一个参数占 2 个字节，1.3B 参数就是 2.6GB，8B 参数就是 16GB

对于 DeepSeek R1 这个模型，它的默认大小是 671B，也就是需要 1342 GB 内存的显卡才能跑起来...等等！这似乎和大家的记忆不对，看之前很多人拿着 192 GB 的 Mac 就跑起来 R1 了，这是怎么回事儿？

这里用到了一种手段，叫量化：减少参数的储存位数，把模型权重压小

比如 FP16 用 16 位存一个小数，能表示 65,536 种不同的值，现在给他压到 8 位（Q8 或 INT8），只能表示 256 种值，存储空间减半。压到 4 位（Q4 或 INT4），只能表示 16 种值，空间再减半；当然，还可以继续还可以继续压到 3 位、2 位...那么，量化代价是什么？精度下降得越来越快，也就是变笨了

诶...好像在看到量化的时候，大家好像对于精度的说法好像不太一样，比如 4-bit 量化，有的地方说什么 int4，有的地方说什么 Q4，这特么又是什么东西？其实这是两套常见标准，同一个精度等级、不同工具链里，叫的不同名字：

Q 系列（Q2、Q3、Q4、Q5、Q8）是 llama.cpp 和 Ollama 用的 GGUF 格式，手机和 PC 本地部署走这条路
INT 系列（INT4、INT8）是 vLLM 和 TensorRT 用的标准整数量化，云端部署走这个

虽然不是等价，但这些东西大致是属于同一档的：Q4_K_M 对应的是 INT4，Q8_0 则是对应 INT8

此外比如 AWQ 和 GPTQ，也是 4-bit 量化，原理不同但精度等级和 INT4 / Q4 一样.... Q4、INT4、AWQ、GPTQ 四个名字会以为是四种不同的东西，但他们都是 4-bit 量化，区别在实现方式和适配的推理框架，这里我做了一个精度对照表，给大家看看

而在往下的这张表，则是列了从 2-bit 到 FP16，不同参数的模型，能吃掉多少内存

KV Cache

在我们调用模型的时候，总能看到模型有个「最大上下文」，为什么要有这个限制呢？甚至有些 MaaS 平台，在上下文过长的时候，还会额外进行收费，这又是为什么呢？

原理其实可以用一句话解释：长上下文，会有更多的 KV Cache，会占用更多的内存，推理会更高

KV Cache 是啥呢？在模型跑起来之后，所有的上下文信息，都会以 token 的形式在内存里存一份 Key 和一份 Value，用来做注意力计算，然后不断的推导出下一个 Token 是什么。因此，上下文越长，占的内存就越大

对了，大模型生成 Token 的原理之前有聊过，没印象的可以来这里复习：

这里我做了一张图，直观比较一下不同长度上下文的话，会占据多少内存

当然，上面这些是按典型 dense Transformer 结构做的近似估算，实际 KV Cache 会随层数、KV heads、head dim、GQA/MQA 结构、batch size 和 KV dtype 变化，这里就不展开了

除了常规的文本 KV Cache 外，多模态模型还有一些额外开销，就是视觉 token。这个东西和文本一样占 KV Cache，数量取决于图片分辨率和压缩方式

手机只跑得动 1B

那么问题回来了，现在一部主流的手机，能跑得下多大的模型呢？

现在的主打款手机，比如 iPhone 17，运行内存（RAM）通常是 8 GB 左右。在这里，系统和常驻的 App 通常会吃掉一半多的内存，能分给大模型的也就是 2～3GB。对着看上面的内存表，1.3B 的模型还是非常够吃的，2B 开始可能就会紧张了

对于主流新机来说，2B 以内的模型，是当下唯一的选择

如果把视角放宽，希望大多数人都能用上端侧算力，哪又将如何呢？对于最广泛存在的中端手机，本身只有大概 6GB RAM，1B 可能就是唯一的选择

或许有的朋友可能会问：以后大家的运行内存，会不会大一些？啊哈哈哈哈哈哈，最近半年 DDR5 内存价格涨的亲妈不认，各厂商比如三星、海力士、镁光等等的都把产能丢去了做 AI 用的 HBM，短时间似乎也不太可能有更多的消费级内存流出

也就是说：未来两年内存都不太会宽裕，那么手机上能跑的多模态模型大概就是 1～2B

顺便吐槽下...这两天谷歌 Pixel 11 配置曝光，由于内存不够用的，标准版 RAM 从 12GB 砍到 8GB，Pro 系列从 16GB 降到 12GB。同一时间，国内多家手机厂商也在今年 3 月调了价

更大但更快

回过头来让我们在仔细看看 MiniCPM-V 4.6 这款 1.3B 的模型，在 vLLM 上跑高并发测试（256 张 1344×1344 图片并发），单卡 token 吞吐量达到 2624 token/s。处理 3136×3136 分辨率的高清大图，首次响应延迟 75.7ms，并且对于高分辨率的图片，支持优化还很不错

首响延迟随分辨率变化

高并发吞吐量

根据公开的 40 多项 benchmark，MiniCPM-V 4.6 综合能力在 1B 级别排第一，多数图文理解任务领先

综合性能 Instruct 对比

Artificial Analysis Intelligence Index

此外，这个模型还有个 Thinking 版本，开启后在数学和逻辑任务上有额外提升

与这个这个模型一起发布的，还有个 arXiv peper，是面壁联合清华一起发的，在这里：https://arxiv.org/abs/2605.08985

这个 Paper 里有几个发现，我也给摘出来

切片编码比全局编码好 在做了大量对照实验后，研究团队发现，在全局编码下，文字、图表这类精细元素容易被全局信息稀释。切片编码让编码器专注于每个小区域内的细粒度模式，分辨率越高优势越大

LLaVA-UHD v4 架构

把压缩从 ViT 外面搬到 ViT 里面，能够有效的降低浮点运算 研究团队把一个 4 倍压缩模块插到 ViT 的第 6 层之后。从第 7 层开始，后面所有层只需要处理原来 1/4 的 token。视觉编码阶段的浮点运算量从 3555G 降到 1573G，减了 55.8%。叠加 4 倍的 post-ViT MLP 压缩后，总共是 16 倍压缩

不要随机初始化，而是参数复用：直接随机的话，会炸；但如果把压缩模块的注意力投影、MLP 权重全部从相邻的预训练层拷贝过来。这样压缩模块从第一步训练开始就在预训练的表征流形上工作，不需要从零学习

还有一点就是：16 倍压缩，在云端高并发场景，能够发挥很大价值，快手 2025 年推出的 OneRec 推荐大模型，处理短视频的封面图、字幕、OCR、ASR 这些多模态信息时，用的就是上一代 MiniCPM-V-8B。OneRec 上线后承接了快手短视频推荐主场景 25% 的请求量

快手 OneRec 论文

OneRec tokenizer 架构

4090 就能微调

考虑到这个 1.3B 的模型实在是太小了，所以 4090 就能进行全量微调

所以吧...如果你正在读书，现在有正当的理由去买 4090 了 hhhhhh

为了方便大家上手，面壁在微调这块，提供了多种量化格式的预量化模型，以及部署教程也放出来了：

→ vLLM：github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/vllm/minicpm-v4_6_vllm_zh.md

→ llama.cpp：github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/llama.cpp/minicpm-v4_6_llamacpp.md

→ Ollama：github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/ollama/minicpm-v4_6_ollama_zh.md

→ iOS TestFlight：testflight.apple.com/join/yNKyFZwW

最后

MiniCPM-V 这个系列的模型，参数量从 2.8B 做到 8B 再压到 1.3B，也算是见证了行业的趋势，现在内存越来越贵，这种小尺寸的模型，还是值得一看的

以及，MiniCPM 这套东西，虽然媒体声量不大，但实际上非常多的车机在用，包括不仅限于吉利、上汽大众、广汽、马自达、红旗等等...

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.