网易首页 > 网易号 > 正文 申请入驻

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

0
分享至


今天,我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,看得准、看得快,看得长!高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过 Qwen2.5-VL 72B,堪称最强端侧多模态模型。

?MiniCPM-V 4.5 亮点一览

?首个「高刷视频理解」多模态模型,兼顾性能与效率:高刷视频理解同级 SOTA 且超过 Qwen2.5-VL 72B越级领先;同等视觉 token 开销下, MiniCPM-V 4.5 可接收 6 倍视频帧数量,达到 96 倍视觉压缩率,是同类模型的 12-24 倍;

? 最强多模态 SOTA 模型:图片理解、长视频理解、OCR、文档解析同级 SOTA,且超过 Qwen2.5-VL 72B 达到越级领先;

?‍?端侧友好:提供 SOTA 级多模态表现的同时,带来最佳的推理效率,显存占用、平均推理时间等领先优势显著;

?支持长思考、短思考可控混合推理,性能好、速度快。

➤模型链接

?Github:

https://github.com/OpenBMB/MiniCPM-o

?Hugging Face:

https://huggingface.co/openbmb/MiniCPM-V-4_5

?ModelScope:

https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

01

首个高刷视频理解

兼顾性能与效率

看得更清更准,才能减少视觉信息的误差,提升视觉理解与推理准确性。更高刷新率,是画面流畅度的关键。

此前,主流的多模态模型在处理视频理解任务中,因为平衡算力、功耗等因素,通常采取 1 fps 抽帧,即每秒只能截取 1 帧画面进行识别和理解。虽然一定程度上保证了模型推理效率,但也因此缺失了绝大部分视觉信息,降低了多模态大模型对动态世界「精细化」的理解。

MiniCPM-V 4.5 是行业首个具备高刷视频理解能力的多模态模型,通过将模型结构从 2D-Resampler 拓展为 3D-Resampler,进行三维视频片段的高密度压缩,在同等视觉 Token 量开销下的情况下,最大可接收 6 倍视频帧数量,达到 96 倍视觉压缩率,是同类模型的 12-24 倍。

MiniCPM-V 4.5 通过显著增加抽帧频次,从看「PPT」变成理解「动态画面」,瞬间捕捉,洞见细节!面对一闪而过的画面,MiniCPM-V 4.5 要比 Gemini-2.5-Pro、GPT-5、GPT-4o 等代表性云端模型看得更准、更细。

在 MotionBench、FavorBench 两项体现高刷视频理解能力的榜单中,MiniCPM-V 4.5 达到同尺寸 SOTA,且超过 Qwen2.5-VL 72B,实现越级领先水平。


02

最强端侧多模态

图片、视频理解全 SOTA

以小博大,一直是面壁小钢炮 MiniCPM 的模型特色。这一次,MiniCPM-V 4.5 凭借 8B 参数,在图片理解、视频理解、复杂文档识别等多模态能力上再次刷新能力上限。


图片理解性能上,MiniCPM-V 4.5 在 OpenCompass 测评中,领先GPT-4o、GPT-4.1、Gemini-2.0-Pro 等众多闭源模型 ,甚至超过 Qwen2.5-VL 72B,实现越级领先。


视频理解性能上,MiniCPM-V 4.5 在 LVBench、MLVU、Video-MME、LongVideoBench 等榜单中,均达到同级最佳水平。


在复杂文档识别任务中,MiniCPM-V 4.5 在 OmniDocBench 榜单的 OverallEdit、TextEdit、TableEdit 三项指标上,均取得了通用多模态模型同级别的 SOTA 表现。


此外,MiniCPM-V 4.5 同时支持常规模式和深度思考模式,实现了性能与响应速度的有效平衡,常规模式在绝大部分场景下提供出色的多模态理解能力,深度思考模式则专注于应对复杂与复合型推理任务。

03

极致推理性价比

端侧应用优选

在端侧 AI 应用持续升温的当下,模型能力再强,如果无法在端侧设备上稳定、流畅运行,一切都是空谈。

面壁小钢炮 MiniCPM 不断提升模型的「能力密度」,也一直致力于追求大模型的极致「能效比」,通过更低的显存占用、更快的响应速度,确保在提供 SOTA 级多模态表现的同时,也实现最佳的推理效率和最低的推理开销。

在视频理解榜单 VideoMME、以及单图OpenCompass测试中,MiniCPM-V 4.5达到同级SOTA水平,显存占用、平均推理时间等方面领先优势显著。

其中,在覆盖短、中、长三种类型的视频理解评测集 Video-MME 上,MiniCPM-V 4.5 采用 3 帧打包策略进行推理,时间开销(未计算模型抽帧时间)仅为同级模型的 1/10 。


04

技术解析

MiniCPM-V 4.5 作为多模态模型的新旗舰,之所以具备「高刷」视频理解能力、并取得图片理解、OCR、长视频理解等 SOTA ,主要得益于在模型结构、训练范式等领域的创新。

3D-Resampler 实现高密度视频压缩

当前,制约多模态模型视频理解能力的最核心挑战是性能和效率的 Trade-off,即模型需要看更多视频帧,才能获取更精细的信息以提高理解上限;而模型融入太多视频帧,又会造成显存、推理速度等开销爆炸。由于局部片段的不同视频帧之间存在信息冗余性,即大部分视觉信息不变,仅有少部分信息发生变化,存在很大的信息压缩空间。MiniCPM-V 4.5 将模型结构从 2D-Resampler 拓展为 3D-Resampler,进行三维视频片段的高密度压缩。具体来说,视频会按照每N个视频帧一组分组(分组尺寸最大为 6 ),3D-Resampler 会对每个视频组压缩编码,得到 64 个视觉token(与编码单图视觉token数量相同),最终在推理开销不变的情况下,最大 10 fps 抽帧,实现了模型高刷视频理解能力。得益于 Resampler 机制的灵活性,我们可以在推理阶段灵活调整视频分组尺寸,同时支持单图、多图、视频的统一编码(即单图编码视为 3D 视频编码的 2D 特例),方便知识和能力迁移。

面向多页文档图片的统一OCR和知识推理学习

「对文字的识别解析」和「从文档中学习知识」是多模态大模型的两个重要课题,但这两个方向的学习范式割裂,并且分别受到图像样例难度和解析准确性的限制。提升 OCR 能力往往需要补充更丰富且难的数据,数据增广(例如对图像中文字加高斯噪音)往往会被采用,以提升数据的难度和多样性,但是过大的增广会使得文字不可读,反而会导致模型幻觉。在文档知识学习方面,大部分工作会将文档解析成为图文交替数据进行学习,严重受到文解析工具错误的影响。

MiniCPM-V 4.5 连续控制图像中的「文字信息可见度」,使得多模态模型在 OCR 和知识学习两种模式之间无缝切换,首次实现了OCR 和知识学习两种学习范式的有效融合,且不会受到过难增广和解析错误的影响。具体来说,我们首先提取出文档中的文字框(这通常是非常准确的,大部分解析错误来源于排版、阅读顺序、低信息量图文噪音错误),然后对文字框内区域进行不同程度的噪音增广。当施加噪音较小,文字处于尚可辨别范围内时,模型会 OCR 学习识别文字;当施加噪音较大,文字无法辨认时,模型会自动进入知识学习,根据文档的多模态上下文还原文字;当噪音介于两者之间,模型会进行混合能力的学习。基于上述技术,MiniCPM-V 4.5 低成本实现了领先的 OCR 能力和多模态知识能力。

通用域混合推理强化学习

深度思考推理能力极大拓展了多模态大模型的推理能力边界,但在常见问题场景中,也往往伴随过高的推理延迟。MiniCPM-V 4.5 同时支持常规模式和深度思考模式,实现了性能与响应速度的有效平衡:常规模式在绝大部分场景下提供出色的多模态理解能力,深度思考模式则专注于应对复杂与复合型推理任务。为了让模型在两种模式下都具备出色性能,MiniCPM-V 4.5 提出了混合推理的强化学习训练方案,在强化学习过程中同时激活常规和深度思考模式,实现在相同训练时长下显著更强的常规模式性能和相似的深度思考模式性能。借助 RLPR 技术,MiniCPM-V 4.5 进一步从通用域多模态推理数据上获得高质量的奖励信号,以提升广泛通用领域的推理能力。最终,通过轻量化的 RLAIF-V 训练阶段,模型在保持推理能力的同时显著降低了幻觉。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
因为那鸡,我冒死再为董宇辉说几句话

因为那鸡,我冒死再为董宇辉说几句话

人格志
2026-01-14 23:50:59
湖北一居民挖出疑似战国青铜剑,上交获200元奖励,博物馆回应

湖北一居民挖出疑似战国青铜剑,上交获200元奖励,博物馆回应

扬子晚报
2026-01-15 18:35:01
毛主席的机要秘书谢静宜有多美?长相可爱,当过北京市委书记

毛主席的机要秘书谢静宜有多美?长相可爱,当过北京市委书记

万物知识圈
2026-01-14 09:05:37
伊朗推迟处决,川普暂缓行动;中东上空“山雨欲来风满楼”

伊朗推迟处决,川普暂缓行动;中东上空“山雨欲来风满楼”

近距离
2026-01-15 11:21:15
1997年回归前夜,香港十几万黑帮连夜“大逃亡”,他们最后都去哪了?

1997年回归前夜,香港十几万黑帮连夜“大逃亡”,他们最后都去哪了?

老杉说历史
2026-01-13 19:14:13
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
美国航母出动!伊朗处于最高战备状态

美国航母出动!伊朗处于最高战备状态

每日经济新闻
2026-01-15 16:42:30
三只羊杀回抖音,小杨哥风格突然反转!

三只羊杀回抖音,小杨哥风格突然反转!

互联网品牌官
2026-01-15 12:27:45
美联储发声!事关降息!黄金跳水,中概股,突变!

美联储发声!事关降息!黄金跳水,中概股,突变!

证券时报e公司
2026-01-15 23:00:57
巴萨十连胜:弗里克掌舵,驶向荣耀新高峰

巴萨十连胜:弗里克掌舵,驶向荣耀新高峰

问书君
2026-01-16 00:46:34
全世界都在静静等待,战争可能很快到来

全世界都在静静等待,战争可能很快到来

牛弹琴
2026-01-14 07:46:19
富可敌国的贝莱德,竟然还有金主爸爸,实力远超贝莱德财团

富可敌国的贝莱德,竟然还有金主爸爸,实力远超贝莱德财团

妙知
2026-01-15 11:44:16
王健林预言成真!第3轮大涨来了?内行人:2026年房价或超出想象

王健林预言成真!第3轮大涨来了?内行人:2026年房价或超出想象

猫叔东山再起
2026-01-15 10:55:03
合川呆呆收入曝光,一夜暴富,几辈子都花不完

合川呆呆收入曝光,一夜暴富,几辈子都花不完

辣条小剧场
2026-01-14 04:31:12
才刚下课!阿隆索就遭疯抢!英超10亿豪门第一,拜仁邀请太意外

才刚下课!阿隆索就遭疯抢!英超10亿豪门第一,拜仁邀请太意外

阿泰希特
2026-01-15 12:15:45
人要坏成什么样子,才能做出这等丧尽天良的事!

人要坏成什么样子,才能做出这等丧尽天良的事!

胖胖说他不胖
2026-01-14 13:31:12
天呀,杜海涛竟然现成这样了,沈梦辰对他是真爱啊

天呀,杜海涛竟然现成这样了,沈梦辰对他是真爱啊

草莓解说体育
2026-01-07 01:43:18
一路走好!2026才过15天,已有5位名人去世,最大89岁最小才47岁

一路走好!2026才过15天,已有5位名人去世,最大89岁最小才47岁

揽星河的笔记
2026-01-15 14:14:13
高市安排妥了,李在明在日本吃晚宴,饭还没下肚,中方先回了14字

高市安排妥了,李在明在日本吃晚宴,饭还没下肚,中方先回了14字

铁锤简科
2026-01-16 00:07:06
女孩追母身亡后续:真相另有隐情,父亲着急要保险金,奶奶更离谱

女孩追母身亡后续:真相另有隐情,父亲着急要保险金,奶奶更离谱

有范又有料
2026-01-15 18:00:52
2026-01-16 02:08:49
雷峰网 incentive-icons
雷峰网
关注智能与未来!
68352文章数 656054关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

美突袭委内瑞拉动用神秘武器:委士兵跪倒在地吐血

头条要闻

美突袭委内瑞拉动用神秘武器:委士兵跪倒在地吐血

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

92岁陶玉玲去世,冯远征曹可凡悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

亲子
艺术
旅游
公开课
军事航空

亲子要闻

爸爸妈妈必备的问题答案——这个世界没有鬼!因为孩子的认知和心理承受力太小了

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

旅游要闻

南京街头巷尾都是《寻秦记》

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国已正式开始出售委内瑞拉石油

无障碍浏览 进入关怀版