5月13日,面壁智能联合清华大学、OpenBMB开源社区正式开源了新一代端侧多模态大模型MiniCPM-V 4.6。
在几乎所有大模型厂商都在追逐更大参数规模的时候,这家清华系团队选择了一条截然相反的路径。仅1.3B的参数规模,却号称能在6G内存的设备上流畅运行多模态任务,这本身就是一个不小的反差。
这款模型的架构选择值得注意,它基于SigLIP2-400M视觉编码器与Qwen3.5-0.8B语言主干构建,配合LLaVA-UHD v4技术,将图像编码阶段的计算量削减了超过50%。
更具体地说,团队将视觉token压缩提前到了ViT内部,而非传统做法中在视觉编码完成后再做压缩,这使得整体推理吞吐量达到了Qwen3.5-0.8B的1.5倍。
在Artificial Analysis的评测中,MiniCPM-V 4.6以13分超越了同尺寸的Qwen3.5-0.8B(10分)和Gemma4-E2B-it,token消耗仅为前者的1/43。
从技术实现来看,4倍和16倍混合视觉token压缩模式是一个相对灵活的设计。开发者可以在高精度文档解析场景选择4倍压缩,而在实时交互场景切换到16倍压缩。
实际测试中,处理3132×3132分辨率的高清图片时,首字响应延迟为75.7毫秒,比Qwen3.5-0.8B快了约2.2倍。
但必须指出的是,基准测试的漂亮数字与真实业务场景之间往往存在差距。尽管官方宣称模型在图文理解、STEM数理推理和文档OCR等任务上全面超越了直接竞品,但这些测试大多在vLLM框架的标准环境中完成,与手机端实机部署的功耗表现、发热控制和量化精度损失是两个范畴的事情。
有开发者已经明确提出,AWQ等激进量化方案在视觉语言任务上的稳定性需要进一步验证。
部署生态方面,MiniCPM-V 4.6全面接入了vLLM、SGLang、llama.cpp和Ollama等推理框架,并提供了GGUF、BNB、GPTQ等多种量化变体。
配套的微调工具链覆盖了ms-swift和LLaMA-Factory,开发者用一张RTX 4090即可完成全量微调。这个开发友好度值得肯定,但工具链的完善程度与实际落地方便程度之间仍然需要打一个问号。
一个现实的考量是,尽管模型只需要6G内存就能运行,但4位量化版本确实使其能在一块RTX 4090上以约3G显存运行,普通开发者和小团队确实可以低成本接入。
但一个1.3B的小模型在复杂多模态任务上的表现能否真正满足商业化场景的需求,尤其是面对阿里Qwen系列和谷歌Gemma等竞争对手的持续迭代,MiniCPM-V 4.6的高效率叙事是否足以让产业界买单,可能还需要更长时间的验证。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.