网易首页 > 网易号 > 正文 申请入驻

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

0
分享至

今天,我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,看得准、看得快,看得长!高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过 Qwen2.5-VL 72B,堪称最强端侧多模态模型。

?MiniCPM-V 4.5 亮点一览

?首个「高刷视频理解」多模态模型,兼顾性能与效率:高刷视频理解同级 SOTA 且超过 Qwen2.5-VL 72B越级领先;同等视觉 token 开销下, MiniCPM-V 4.5 可接收 6 倍视频帧数量,达到 96 倍视觉压缩率,是同类模型的 12-24 倍;

? 最强多模态 SOTA 模型:图片理解、长视频理解、OCR、文档解析同级 SOTA,且超过 Qwen2.5-VL 72B 达到越级领先;

?‍?端侧友好:提供 SOTA 级多模态表现的同时,带来最佳的推理效率,显存占用、平均推理时间等领先优势显著;

?支持长思考、短思考可控混合推理,性能好、速度快。

➤模型链接

?Github:

https://github.com/OpenBMB/MiniCPM-o

?Hugging Face:

https://huggingface.co/openbmb/MiniCPM-V-4_5

?ModelScope:

https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

01

首个高刷视频理解

兼顾性能与效率

看得更清更准,才能减少视觉信息的误差,提升视觉理解与推理准确性。更高刷新率,是画面流畅度的关键。

此前,主流的多模态模型在处理视频理解任务中,因为平衡算力、功耗等因素,通常采取 1 fps 抽帧,即每秒只能截取 1 帧画面进行识别和理解。虽然一定程度上保证了模型推理效率,但也因此缺失了绝大部分视觉信息,降低了多模态大模型对动态世界「精细化」的理解。

MiniCPM-V 4.5 是行业首个具备高刷视频理解能力的多模态模型,通过将模型结构从 2D-Resampler 拓展为 3D-Resampler,进行三维视频片段的高密度压缩,在同等视觉 Token 量开销下的情况下,最大可接收 6 倍视频帧数量,达到 96 倍视觉压缩率,是同类模型的 12-24 倍。

MiniCPM-V 4.5 通过显著增加抽帧频次,从看「PPT」变成理解「动态画面」,瞬间捕捉,洞见细节!面对一闪而过的画面,MiniCPM-V 4.5 要比 Gemini-2.5-Pro、GPT-5、GPT-4o 等代表性云端模型看得更准、更细。

在 MotionBench、FavorBench 两项体现高刷视频理解能力的榜单中,MiniCPM-V 4.5 达到同尺寸 SOTA,且超过 Qwen2.5-VL 72B,实现越级领先水平。

02

最强端侧多模态

图片、视频理解全 SOTA

以小博大,一直是面壁小钢炮 MiniCPM 的模型特色。这一次,MiniCPM-V 4.5 凭借 8B 参数,在图片理解、视频理解、复杂文档识别等多模态能力上再次刷新能力上限。

图片理解性能上,MiniCPM-V 4.5 在 OpenCompass 测评中,领先GPT-4o、GPT-4.1、Gemini-2.0-Pro 等众多闭源模型 ,甚至超过 Qwen2.5-VL 72B,实现越级领先。

视频理解性能上,MiniCPM-V 4.5 在 LVBench、MLVU、Video-MME、LongVideoBench 等榜单中,均达到同级最佳水平。

在复杂文档识别任务中,MiniCPM-V 4.5 在 OmniDocBench 榜单的 OverallEdit、TextEdit、TableEdit 三项指标上,均取得了通用多模态模型同级别的 SOTA 表现。

此外,MiniCPM-V 4.5 同时支持常规模式和深度思考模式,实现了性能与响应速度的有效平衡,常规模式在绝大部分场景下提供出色的多模态理解能力,深度思考模式则专注于应对复杂与复合型推理任务。

03

极致推理性价比

端侧应用优选

在端侧 AI 应用持续升温的当下,模型能力再强,如果无法在端侧设备上稳定、流畅运行,一切都是空谈。

面壁小钢炮 MiniCPM 不断提升模型的「能力密度」,也一直致力于追求大模型的极致「能效比」,通过更低的显存占用、更快的响应速度,确保在提供 SOTA 级多模态表现的同时,也实现最佳的推理效率和最低的推理开销。

在视频理解榜单 VideoMME、以及单图OpenCompass测试中,MiniCPM-V 4.5达到同级SOTA水平,显存占用、平均推理时间等方面领先优势显著。

其中,在覆盖短、中、长三种类型的视频理解评测集 Video-MME 上,MiniCPM-V 4.5 采用 3 帧打包策略进行推理,时间开销(未计算模型抽帧时间)仅为同级模型的 1/10 。

04

技术解析

MiniCPM-V 4.5 作为多模态模型的新旗舰,之所以具备「高刷」视频理解能力、并取得图片理解、OCR、长视频理解等 SOTA ,主要得益于在模型结构、训练范式等领域的创新。

3D-Resampler 实现高密度视频压缩

当前,制约多模态模型视频理解能力的最核心挑战是性能和效率的 Trade-off,即模型需要看更多视频帧,才能获取更精细的信息以提高理解上限;而模型融入太多视频帧,又会造成显存、推理速度等开销爆炸。由于局部片段的不同视频帧之间存在信息冗余性,即大部分视觉信息不变,仅有少部分信息发生变化,存在很大的信息压缩空间。MiniCPM-V 4.5 将模型结构从 2D-Resampler 拓展为 3D-Resampler,进行三维视频片段的高密度压缩。具体来说,视频会按照每N个视频帧一组分组(分组尺寸最大为 6 ),3D-Resampler 会对每个视频组压缩编码,得到 64 个视觉token(与编码单图视觉token数量相同),最终在推理开销不变的情况下,最大 10 fps 抽帧,实现了模型高刷视频理解能力。得益于 Resampler 机制的灵活性,我们可以在推理阶段灵活调整视频分组尺寸,同时支持单图、多图、视频的统一编码(即单图编码视为 3D 视频编码的 2D 特例),方便知识和能力迁移。

面向多页文档图片的统一OCR和知识推理学习

「对文字的识别解析」和「从文档中学习知识」是多模态大模型的两个重要课题,但这两个方向的学习范式割裂,并且分别受到图像样例难度和解析准确性的限制。提升 OCR 能力往往需要补充更丰富且难的数据,数据增广(例如对图像中文字加高斯噪音)往往会被采用,以提升数据的难度和多样性,但是过大的增广会使得文字不可读,反而会导致模型幻觉。在文档知识学习方面,大部分工作会将文档解析成为图文交替数据进行学习,严重受到文解析工具错误的影响。

MiniCPM-V 4.5 连续控制图像中的「文字信息可见度」,使得多模态模型在 OCR 和知识学习两种模式之间无缝切换,首次实现了OCR 和知识学习两种学习范式的有效融合,且不会受到过难增广和解析错误的影响。具体来说,我们首先提取出文档中的文字框(这通常是非常准确的,大部分解析错误来源于排版、阅读顺序、低信息量图文噪音错误),然后对文字框内区域进行不同程度的噪音增广。当施加噪音较小,文字处于尚可辨别范围内时,模型会 OCR 学习识别文字;当施加噪音较大,文字无法辨认时,模型会自动进入知识学习,根据文档的多模态上下文还原文字;当噪音介于两者之间,模型会进行混合能力的学习。基于上述技术,MiniCPM-V 4.5 低成本实现了领先的 OCR 能力和多模态知识能力。

通用域混合推理强化学习

深度思考推理能力极大拓展了多模态大模型的推理能力边界,但在常见问题场景中,也往往伴随过高的推理延迟。MiniCPM-V 4.5 同时支持常规模式和深度思考模式,实现了性能与响应速度的有效平衡:常规模式在绝大部分场景下提供出色的多模态理解能力,深度思考模式则专注于应对复杂与复合型推理任务。为了让模型在两种模式下都具备出色性能,MiniCPM-V 4.5 提出了混合推理的强化学习训练方案,在强化学习过程中同时激活常规和深度思考模式,实现在相同训练时长下显著更强的常规模式性能和相似的深度思考模式性能。借助 RLPR 技术,MiniCPM-V 4.5 进一步从通用域多模态推理数据上获得高质量的奖励信号,以提升广泛通用领域的推理能力。最终,通过轻量化的 RLAIF-V 训练阶段,模型在保持推理能力的同时显著降低了幻觉。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
印度公布2025年GDP:不仅未能赶超日本,还被英国反超,降至第六

印度公布2025年GDP:不仅未能赶超日本,还被英国反超,降至第六

南生今世说
2026-02-28 10:03:03
巴防长直接宣战,巴阿全面开打,塔利班全线溃退

巴防长直接宣战,巴阿全面开打,塔利班全线溃退

老马拉车莫少装
2026-02-27 23:59:47
暴跌60%,引来全国牙科关店潮,暴利的牙科生意真的走到了尽头?

暴跌60%,引来全国牙科关店潮,暴利的牙科生意真的走到了尽头?

小熊侃史
2026-01-17 07:50:11
杨瀚森2分1板前景不乐观?波特兰媒体:他得抓住3月的黄金机会

杨瀚森2分1板前景不乐观?波特兰媒体:他得抓住3月的黄金机会

罗说NBA
2026-03-01 06:10:49
王一博风波升级!吐槽肖战等十几位明星,细节对上,爆料者被扒!

王一博风波升级!吐槽肖战等十几位明星,细节对上,爆料者被扒!

古希腊掌管月桂的神
2026-02-28 09:35:27
父亲年前从国企退休,我以为退休金也就三四千块钱

父亲年前从国企退休,我以为退休金也就三四千块钱

五元讲堂
2026-02-25 14:26:11
高阶数据BPM历史前三:约基奇、乔丹、詹姆斯!

高阶数据BPM历史前三:约基奇、乔丹、詹姆斯!

氧气是个地铁
2026-03-01 08:25:55
牡丹花下死!这次曝光新恋情的黄晓明,没给杨颖、叶柯留一丝体面

牡丹花下死!这次曝光新恋情的黄晓明,没给杨颖、叶柯留一丝体面

情感大头说说
2026-03-01 06:40:17
6-1,6-3!中国金花绽放:张帅进500赛4强平纪录,今年排名创新高

6-1,6-3!中国金花绽放:张帅进500赛4强平纪录,今年排名创新高

刘姚尧的文字城堡
2026-02-28 12:29:53
美方将对伊朗行动评估为“高风险高回报”

美方将对伊朗行动评估为“高风险高回报”

界面新闻
2026-02-28 23:17:08
这是著名脱口秀演员徐志胜,旁边是他女朋友

这是著名脱口秀演员徐志胜,旁边是他女朋友

情感大头说说
2026-02-28 02:42:16
凯恩双响队史第一人,基米希绝杀,拜仁3-2逆转多特11分领跑德甲

凯恩双响队史第一人,基米希绝杀,拜仁3-2逆转多特11分领跑德甲

钉钉陌上花开
2026-03-01 03:30:10
脸在江山在?事实证明,失去黄晓明的杨颖,又回到了她的“怪圈”

脸在江山在?事实证明,失去黄晓明的杨颖,又回到了她的“怪圈”

观察鉴娱
2026-02-28 10:07:44
高市早苗的“精神分裂症”:边向中国低头要饭,边举刀准备砸锅

高市早苗的“精神分裂症”:边向中国低头要饭,边举刀准备砸锅

挑战你的想象力
2026-02-23 12:35:31
上海女子花8800元雇团队寻猫,结果物业发现就在屋内!寻宠团队:按结果收费不退钱;当事人已报警

上海女子花8800元雇团队寻猫,结果物业发现就在屋内!寻宠团队:按结果收费不退钱;当事人已报警

新民晚报
2026-02-27 19:32:24
默茨访华大受震撼,离开中国前突然改口,得罪美国也在所不惜

默茨访华大受震撼,离开中国前突然改口,得罪美国也在所不惜

阿离家居
2026-02-28 15:23:54
4-1!亚马尔帽子戏法,2亿超巨破纪录,巴萨吊打黄潜,甩皇马4分

4-1!亚马尔帽子戏法,2亿超巨破纪录,巴萨吊打黄潜,甩皇马4分

我的护球最独特
2026-03-01 01:16:35
美国一富豪被冷冻50年,原定2017年苏醒,解冻时工作人员紧急叫停

美国一富豪被冷冻50年,原定2017年苏醒,解冻时工作人员紧急叫停

蜉蝣说
2025-12-01 11:20:58
闲鱼不愧是全国最大的黑市,网民:只有你想不到,没有你买不到

闲鱼不愧是全国最大的黑市,网民:只有你想不到,没有你买不到

小熊侃史
2026-01-16 07:40:07
反转!日媒承认主场哨,央视主持罕见讽刺裁判,中国男篮迎生死战

反转!日媒承认主场哨,央视主持罕见讽刺裁判,中国男篮迎生死战

慢歌轻步谣
2026-02-28 16:26:39
2026-03-01 09:16:49
雷峰网 incentive-icons
雷峰网
关注智能与未来!
68612文章数 656079关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

特朗普称哈梅内伊身亡 后者去年6月布局完整继承体系

头条要闻

特朗普称哈梅内伊身亡 后者去年6月布局完整继承体系

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

周杰伦儿子正面照曝光,与父亲好像

财经要闻

冲突爆发 市场变天?

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

艺术
本地
房产
手机
公开课

艺术要闻

惊艳!这位天使般的女子与油画让人心动不已!

本地新闻

津南好·四时总相宜

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

手机要闻

春节期间中端线下机卖爆,OPPO、vivo、荣耀乐坏了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版