多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快|推理|小钢炮|深度思考模型|minicpm

多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

2025-08-27 14:02:37　来源: 雷峰网

北京举报

分享至

今天，我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型，成为行业首个具备“高刷”视频理解能力的多模态模型，看得准、看得快，看得长！高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA，且性能超过 Qwen2.5-VL 72B，堪称最强端侧多模态模型。

?MiniCPM-V 4.5 亮点一览

?首个「高刷视频理解」多模态模型，兼顾性能与效率：高刷视频理解同级 SOTA 且超过 Qwen2.5-VL 72B越级领先；同等视觉 token 开销下， MiniCPM-V 4.5 可接收 6 倍视频帧数量，达到 96 倍视觉压缩率，是同类模型的 12-24 倍；

? 最强多模态 SOTA 模型：图片理解、长视频理解、OCR、文档解析同级 SOTA，且超过 Qwen2.5-VL 72B 达到越级领先；

?‍?端侧友好：提供 SOTA 级多模态表现的同时，带来最佳的推理效率，显存占用、平均推理时间等领先优势显著；

?支持长思考、短思考可控混合推理，性能好、速度快。

➤模型链接

?Github：

https://github.com/OpenBMB/MiniCPM-o

?Hugging Face:

https://huggingface.co/openbmb/MiniCPM-V-4_5

?ModelScope:

https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

首个高刷视频理解

兼顾性能与效率

看得更清更准，才能减少视觉信息的误差，提升视觉理解与推理准确性。更高刷新率，是画面流畅度的关键。

此前，主流的多模态模型在处理视频理解任务中，因为平衡算力、功耗等因素，通常采取 1 fps 抽帧，即每秒只能截取 1 帧画面进行识别和理解。虽然一定程度上保证了模型推理效率，但也因此缺失了绝大部分视觉信息，降低了多模态大模型对动态世界「精细化」的理解。

MiniCPM-V 4.5 是行业首个具备高刷视频理解能力的多模态模型，通过将模型结构从 2D-Resampler 拓展为 3D-Resampler，进行三维视频片段的高密度压缩，在同等视觉 Token 量开销下的情况下，最大可接收 6 倍视频帧数量，达到 96 倍视觉压缩率，是同类模型的 12-24 倍。

MiniCPM-V 4.5 通过显著增加抽帧频次，从看「PPT」变成理解「动态画面」，瞬间捕捉，洞见细节！面对一闪而过的画面，MiniCPM-V 4.5 要比 Gemini-2.5-Pro、GPT-5、GPT-4o 等代表性云端模型看得更准、更细。

在 MotionBench、FavorBench 两项体现高刷视频理解能力的榜单中，MiniCPM-V 4.5 达到同尺寸 SOTA，且超过 Qwen2.5-VL 72B，实现越级领先水平。

最强端侧多模态

图片、视频理解全 SOTA

以小博大，一直是面壁小钢炮 MiniCPM 的模型特色。这一次，MiniCPM-V 4.5 凭借 8B 参数，在图片理解、视频理解、复杂文档识别等多模态能力上再次刷新能力上限。

图片理解性能上，MiniCPM-V 4.5 在 OpenCompass 测评中，领先GPT-4o、GPT-4.1、Gemini-2.0-Pro 等众多闭源模型，甚至超过 Qwen2.5-VL 72B，实现越级领先。

视频理解性能上，MiniCPM-V 4.5 在 LVBench、MLVU、Video-MME、LongVideoBench 等榜单中，均达到同级最佳水平。

在复杂文档识别任务中，MiniCPM-V 4.5 在 OmniDocBench 榜单的 OverallEdit、TextEdit、TableEdit 三项指标上，均取得了通用多模态模型同级别的 SOTA 表现。

此外，MiniCPM-V 4.5 同时支持常规模式和深度思考模式，实现了性能与响应速度的有效平衡，常规模式在绝大部分场景下提供出色的多模态理解能力，深度思考模式则专注于应对复杂与复合型推理任务。

极致推理性价比

端侧应用优选

在端侧 AI 应用持续升温的当下，模型能力再强，如果无法在端侧设备上稳定、流畅运行，一切都是空谈。

面壁小钢炮 MiniCPM 不断提升模型的「能力密度」，也一直致力于追求大模型的极致「能效比」，通过更低的显存占用、更快的响应速度，确保在提供 SOTA 级多模态表现的同时，也实现最佳的推理效率和最低的推理开销。

在视频理解榜单 VideoMME、以及单图OpenCompass测试中，MiniCPM-V 4.5达到同级SOTA水平，显存占用、平均推理时间等方面领先优势显著。

其中，在覆盖短、中、长三种类型的视频理解评测集 Video-MME 上，MiniCPM-V 4.5 采用 3 帧打包策略进行推理，时间开销（未计算模型抽帧时间）仅为同级模型的 1/10 。

技术解析

MiniCPM-V 4.5 作为多模态模型的新旗舰，之所以具备「高刷」视频理解能力、并取得图片理解、OCR、长视频理解等 SOTA ，主要得益于在模型结构、训练范式等领域的创新。

3D-Resampler 实现高密度视频压缩

当前，制约多模态模型视频理解能力的最核心挑战是性能和效率的 Trade-off，即模型需要看更多视频帧，才能获取更精细的信息以提高理解上限；而模型融入太多视频帧，又会造成显存、推理速度等开销爆炸。由于局部片段的不同视频帧之间存在信息冗余性，即大部分视觉信息不变，仅有少部分信息发生变化，存在很大的信息压缩空间。MiniCPM-V 4.5 将模型结构从 2D-Resampler 拓展为 3D-Resampler，进行三维视频片段的高密度压缩。具体来说，视频会按照每N个视频帧一组分组（分组尺寸最大为 6 ），3D-Resampler 会对每个视频组压缩编码，得到 64 个视觉token（与编码单图视觉token数量相同），最终在推理开销不变的情况下，最大 10 fps 抽帧，实现了模型高刷视频理解能力。得益于 Resampler 机制的灵活性，我们可以在推理阶段灵活调整视频分组尺寸，同时支持单图、多图、视频的统一编码（即单图编码视为 3D 视频编码的 2D 特例），方便知识和能力迁移。

面向多页文档图片的统一OCR和知识推理学习

「对文字的识别解析」和「从文档中学习知识」是多模态大模型的两个重要课题，但这两个方向的学习范式割裂，并且分别受到图像样例难度和解析准确性的限制。提升 OCR 能力往往需要补充更丰富且难的数据，数据增广（例如对图像中文字加高斯噪音）往往会被采用，以提升数据的难度和多样性，但是过大的增广会使得文字不可读，反而会导致模型幻觉。在文档知识学习方面，大部分工作会将文档解析成为图文交替数据进行学习，严重受到文解析工具错误的影响。

MiniCPM-V 4.5 连续控制图像中的「文字信息可见度」，使得多模态模型在 OCR 和知识学习两种模式之间无缝切换，首次实现了OCR 和知识学习两种学习范式的有效融合，且不会受到过难增广和解析错误的影响。具体来说，我们首先提取出文档中的文字框（这通常是非常准确的，大部分解析错误来源于排版、阅读顺序、低信息量图文噪音错误），然后对文字框内区域进行不同程度的噪音增广。当施加噪音较小，文字处于尚可辨别范围内时，模型会 OCR 学习识别文字；当施加噪音较大，文字无法辨认时，模型会自动进入知识学习，根据文档的多模态上下文还原文字；当噪音介于两者之间，模型会进行混合能力的学习。基于上述技术，MiniCPM-V 4.5 低成本实现了领先的 OCR 能力和多模态知识能力。

通用域混合推理强化学习

深度思考推理能力极大拓展了多模态大模型的推理能力边界，但在常见问题场景中，也往往伴随过高的推理延迟。MiniCPM-V 4.5 同时支持常规模式和深度思考模式，实现了性能与响应速度的有效平衡：常规模式在绝大部分场景下提供出色的多模态理解能力，深度思考模式则专注于应对复杂与复合型推理任务。为了让模型在两种模式下都具备出色性能，MiniCPM-V 4.5 提出了混合推理的强化学习训练方案，在强化学习过程中同时激活常规和深度思考模式，实现在相同训练时长下显著更强的常规模式性能和相似的深度思考模式性能。借助 RLPR 技术，MiniCPM-V 4.5 进一步从通用域多模态推理数据上获得高质量的奖励信号，以提升广泛通用领域的推理能力。最终，通过轻量化的 RLAIF-V 训练阶段，模型在保持推理能力的同时显著降低了幻觉。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.