网易首页 > 网易号 > 正文 申请入驻

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

0
分享至

今天,我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,看得准、看得快,看得长!高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过 Qwen2.5-VL 72B,堪称最强端侧多模态模型。

?MiniCPM-V 4.5 亮点一览

?首个「高刷视频理解」多模态模型,兼顾性能与效率:高刷视频理解同级 SOTA 且超过 Qwen2.5-VL 72B越级领先;同等视觉 token 开销下, MiniCPM-V 4.5 可接收 6 倍视频帧数量,达到 96 倍视觉压缩率,是同类模型的 12-24 倍;

? 最强多模态 SOTA 模型:图片理解、长视频理解、OCR、文档解析同级 SOTA,且超过 Qwen2.5-VL 72B 达到越级领先;

?‍?端侧友好:提供 SOTA 级多模态表现的同时,带来最佳的推理效率,显存占用、平均推理时间等领先优势显著;

?支持长思考、短思考可控混合推理,性能好、速度快。

➤模型链接

?Github:

https://github.com/OpenBMB/MiniCPM-o

?Hugging Face:

https://huggingface.co/openbmb/MiniCPM-V-4_5

?ModelScope:

https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

01

首个高刷视频理解

兼顾性能与效率

看得更清更准,才能减少视觉信息的误差,提升视觉理解与推理准确性。更高刷新率,是画面流畅度的关键。

此前,主流的多模态模型在处理视频理解任务中,因为平衡算力、功耗等因素,通常采取 1 fps 抽帧,即每秒只能截取 1 帧画面进行识别和理解。虽然一定程度上保证了模型推理效率,但也因此缺失了绝大部分视觉信息,降低了多模态大模型对动态世界「精细化」的理解。

MiniCPM-V 4.5 是行业首个具备高刷视频理解能力的多模态模型,通过将模型结构从 2D-Resampler 拓展为 3D-Resampler,进行三维视频片段的高密度压缩,在同等视觉 Token 量开销下的情况下,最大可接收 6 倍视频帧数量,达到 96 倍视觉压缩率,是同类模型的 12-24 倍。

MiniCPM-V 4.5 通过显著增加抽帧频次,从看「PPT」变成理解「动态画面」,瞬间捕捉,洞见细节!面对一闪而过的画面,MiniCPM-V 4.5 要比 Gemini-2.5-Pro、GPT-5、GPT-4o 等代表性云端模型看得更准、更细。

在 MotionBench、FavorBench 两项体现高刷视频理解能力的榜单中,MiniCPM-V 4.5 达到同尺寸 SOTA,且超过 Qwen2.5-VL 72B,实现越级领先水平。

02

最强端侧多模态

图片、视频理解全 SOTA

以小博大,一直是面壁小钢炮 MiniCPM 的模型特色。这一次,MiniCPM-V 4.5 凭借 8B 参数,在图片理解、视频理解、复杂文档识别等多模态能力上再次刷新能力上限。

图片理解性能上,MiniCPM-V 4.5 在 OpenCompass 测评中,领先GPT-4o、GPT-4.1、Gemini-2.0-Pro 等众多闭源模型 ,甚至超过 Qwen2.5-VL 72B,实现越级领先。

视频理解性能上,MiniCPM-V 4.5 在 LVBench、MLVU、Video-MME、LongVideoBench 等榜单中,均达到同级最佳水平。

在复杂文档识别任务中,MiniCPM-V 4.5 在 OmniDocBench 榜单的 OverallEdit、TextEdit、TableEdit 三项指标上,均取得了通用多模态模型同级别的 SOTA 表现。

此外,MiniCPM-V 4.5 同时支持常规模式和深度思考模式,实现了性能与响应速度的有效平衡,常规模式在绝大部分场景下提供出色的多模态理解能力,深度思考模式则专注于应对复杂与复合型推理任务。

03

极致推理性价比

端侧应用优选

在端侧 AI 应用持续升温的当下,模型能力再强,如果无法在端侧设备上稳定、流畅运行,一切都是空谈。

面壁小钢炮 MiniCPM 不断提升模型的「能力密度」,也一直致力于追求大模型的极致「能效比」,通过更低的显存占用、更快的响应速度,确保在提供 SOTA 级多模态表现的同时,也实现最佳的推理效率和最低的推理开销。

在视频理解榜单 VideoMME、以及单图OpenCompass测试中,MiniCPM-V 4.5达到同级SOTA水平,显存占用、平均推理时间等方面领先优势显著。

其中,在覆盖短、中、长三种类型的视频理解评测集 Video-MME 上,MiniCPM-V 4.5 采用 3 帧打包策略进行推理,时间开销(未计算模型抽帧时间)仅为同级模型的 1/10 。

04

技术解析

MiniCPM-V 4.5 作为多模态模型的新旗舰,之所以具备「高刷」视频理解能力、并取得图片理解、OCR、长视频理解等 SOTA ,主要得益于在模型结构、训练范式等领域的创新。

3D-Resampler 实现高密度视频压缩

当前,制约多模态模型视频理解能力的最核心挑战是性能和效率的 Trade-off,即模型需要看更多视频帧,才能获取更精细的信息以提高理解上限;而模型融入太多视频帧,又会造成显存、推理速度等开销爆炸。由于局部片段的不同视频帧之间存在信息冗余性,即大部分视觉信息不变,仅有少部分信息发生变化,存在很大的信息压缩空间。MiniCPM-V 4.5 将模型结构从 2D-Resampler 拓展为 3D-Resampler,进行三维视频片段的高密度压缩。具体来说,视频会按照每N个视频帧一组分组(分组尺寸最大为 6 ),3D-Resampler 会对每个视频组压缩编码,得到 64 个视觉token(与编码单图视觉token数量相同),最终在推理开销不变的情况下,最大 10 fps 抽帧,实现了模型高刷视频理解能力。得益于 Resampler 机制的灵活性,我们可以在推理阶段灵活调整视频分组尺寸,同时支持单图、多图、视频的统一编码(即单图编码视为 3D 视频编码的 2D 特例),方便知识和能力迁移。

面向多页文档图片的统一OCR和知识推理学习

「对文字的识别解析」和「从文档中学习知识」是多模态大模型的两个重要课题,但这两个方向的学习范式割裂,并且分别受到图像样例难度和解析准确性的限制。提升 OCR 能力往往需要补充更丰富且难的数据,数据增广(例如对图像中文字加高斯噪音)往往会被采用,以提升数据的难度和多样性,但是过大的增广会使得文字不可读,反而会导致模型幻觉。在文档知识学习方面,大部分工作会将文档解析成为图文交替数据进行学习,严重受到文解析工具错误的影响。

MiniCPM-V 4.5 连续控制图像中的「文字信息可见度」,使得多模态模型在 OCR 和知识学习两种模式之间无缝切换,首次实现了OCR 和知识学习两种学习范式的有效融合,且不会受到过难增广和解析错误的影响。具体来说,我们首先提取出文档中的文字框(这通常是非常准确的,大部分解析错误来源于排版、阅读顺序、低信息量图文噪音错误),然后对文字框内区域进行不同程度的噪音增广。当施加噪音较小,文字处于尚可辨别范围内时,模型会 OCR 学习识别文字;当施加噪音较大,文字无法辨认时,模型会自动进入知识学习,根据文档的多模态上下文还原文字;当噪音介于两者之间,模型会进行混合能力的学习。基于上述技术,MiniCPM-V 4.5 低成本实现了领先的 OCR 能力和多模态知识能力。

通用域混合推理强化学习

深度思考推理能力极大拓展了多模态大模型的推理能力边界,但在常见问题场景中,也往往伴随过高的推理延迟。MiniCPM-V 4.5 同时支持常规模式和深度思考模式,实现了性能与响应速度的有效平衡:常规模式在绝大部分场景下提供出色的多模态理解能力,深度思考模式则专注于应对复杂与复合型推理任务。为了让模型在两种模式下都具备出色性能,MiniCPM-V 4.5 提出了混合推理的强化学习训练方案,在强化学习过程中同时激活常规和深度思考模式,实现在相同训练时长下显著更强的常规模式性能和相似的深度思考模式性能。借助 RLPR 技术,MiniCPM-V 4.5 进一步从通用域多模态推理数据上获得高质量的奖励信号,以提升广泛通用领域的推理能力。最终,通过轻量化的 RLAIF-V 训练阶段,模型在保持推理能力的同时显著降低了幻觉。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你知道吗?这些公安部门以前全是独立的!

你知道吗?这些公安部门以前全是独立的!

音乐时光的娱乐
2026-06-21 12:38:39
人可以懒到什么程度!好像也没必要非得组装好,我却笑死在评论区

人可以懒到什么程度!好像也没必要非得组装好,我却笑死在评论区

另子维爱读史
2026-06-21 18:36:47
吴曦:足协杯取胜是球队团结的表现;感受到了家乡球迷的热情

吴曦:足协杯取胜是球队团结的表现;感受到了家乡球迷的热情

懂球帝
2026-06-21 18:21:02
雷军回应与董明珠打赌被批评:玩笑开的确实不妥 还不能反击前辈

雷军回应与董明珠打赌被批评:玩笑开的确实不妥 还不能反击前辈

快科技
2026-06-21 18:41:04
泽连斯基刚炸莫斯科,普京反手甩出巨型航弹,砸向乌军指挥部

泽连斯基刚炸莫斯科,普京反手甩出巨型航弹,砸向乌军指挥部

星星邮递员
2026-06-21 10:02:44
李嘉欣端午与许晋亨外出,打扮简约大方不失贵气,一身行头近80万

李嘉欣端午与许晋亨外出,打扮简约大方不失贵气,一身行头近80万

好贤观史记
2026-06-20 14:36:27
虎扑直男灵魂拷问:丝袜穿久了,脚会有味道吗?

虎扑直男灵魂拷问:丝袜穿久了,脚会有味道吗?

时光慢旅人
2026-06-21 00:51:16
摩尔线程、长鑫存储、Kimi的共同投资人王捷:AI这艘巨轮,越过山丘后,经济系统会发生什么?

摩尔线程、长鑫存储、Kimi的共同投资人王捷:AI这艘巨轮,越过山丘后,经济系统会发生什么?

新浪财经
2026-06-21 10:06:03
莫言:你细心观察一下你的身边人,凡是动不动就生气的人,没有一个是智者,生活多半过得一团糟糕

莫言:你细心观察一下你的身边人,凡是动不动就生气的人,没有一个是智者,生活多半过得一团糟糕

每日一首古诗词
2026-06-18 06:32:18
放假通知,中小学生2026暑假放假时间确定了,家长却表示难以接受

放假通知,中小学生2026暑假放假时间确定了,家长却表示难以接受

凯旋学长
2026-06-17 18:47:55
日媒:中国方面似乎在慢慢重启赴日团体旅游项目

日媒:中国方面似乎在慢慢重启赴日团体旅游项目

随波荡漾的漂流瓶
2026-06-19 17:09:56
剑指中国?新加坡专家:虽然美国没打服伊朗,但却成功威慑中国!

剑指中国?新加坡专家:虽然美国没打服伊朗,但却成功威慑中国!

有态度的何总
2026-06-19 15:14:04
微信和支付宝又在AI支付入口“打起来了”

微信和支付宝又在AI支付入口“打起来了”

钛媒体APP
2026-06-21 17:26:50
五连胜终结!中国女排输巴西原因出炉,赵勇毫不客气,句句是实话

五连胜终结!中国女排输巴西原因出炉,赵勇毫不客气,句句是实话

老搽学科普
2026-06-21 19:22:16
已经宣布独立建国,但中国拒不承认的10个国家!

已经宣布独立建国,但中国拒不承认的10个国家!

老达子
2026-06-12 06:35:04
正式退出?输给张本美和,蒯曼发声,心声首次曝光,王励勤意外

正式退出?输给张本美和,蒯曼发声,心声首次曝光,王励勤意外

漫川舟船
2026-06-21 15:56:28
微软CEO:如果所有价值都集中在少数几个模型手中,政治经济体系绝对无法容忍(中英全文)

微软CEO:如果所有价值都集中在少数几个模型手中,政治经济体系绝对无法容忍(中英全文)

新浪财经
2026-06-20 20:40:58
揭秘!乌克兰无人机部队的招兵内幕与百万飞手极限推演

揭秘!乌克兰无人机部队的招兵内幕与百万飞手极限推演

寰球经纬所
2026-06-19 23:19:06
博主称雷军没有模仿黄仁勋,并列出6大理由!网友笑喷:还可以给你补充几十条

博主称雷军没有模仿黄仁勋,并列出6大理由!网友笑喷:还可以给你补充几十条

kio鱼
2026-06-20 14:34:30
大家发现没有,这次中日冲突比历次都严重,却没有人喊抵制日货了

大家发现没有,这次中日冲突比历次都严重,却没有人喊抵制日货了

扶苏聊历史
2025-11-24 15:15:15
2026-06-21 21:08:49
雷峰网 incentive-icons
雷峰网
关注智能与未来!
69798文章数 656147关注度
往期回顾 全部

科技要闻

马斯克拿下7800亿元天价薪酬 2028年可兑现

头条要闻

两年前"震惊世界"的洲际弹道导弹发射 细节披露

头条要闻

两年前"震惊世界"的洲际弹道导弹发射 细节披露

体育要闻

德国的超级替补,10年前还在工厂上班

娱乐要闻

原来她就是张颂文老婆

财经要闻

蔚来的“暗战”时刻

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

亲子
艺术
房产
公开课
军事航空

亲子要闻

家长一定要注意!儿科主任真心建议夏天不要给孩子吃冰的

艺术要闻

看一眼就上头的能量画作!这位美国艺术家的作品太“解压”了

房产要闻

商业清零式退潮,大量住宅登场!三亚又要大规模调规!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

时隔44年试射洲际导弹 现场照片传递三个重磅信息

无障碍浏览 进入关怀版