ahhhhhhhhhh~~~
面壁发了个很有趣的模型MiniCPM-V 4.5
把视觉模型... 卷到了一个非常别致,但实用的地方
高刷
高刷:直观比较
左侧高刷,右侧低刷
猫猫来自...b站up「咪猫胖啊」,猫猫可爱
MiniCPM-V 4.5 眼中,是左侧
10fps,画面流畅,猫猫可爱
其他大模型眼中,是右侧
1fps,画面跳跃,猫猫可爱
以及...问就是
1帧能玩,2帧流畅,3帧电竞,10帧..绝对是高刷
下面...让我更系统的来说说这个「高刷」
由「首款通用排版 Agent」呈现 (建议电脑看)
GitHub:
https://github.com/OpenBMB/MiniCPM-o
MiniCPM-V 4.5
面壁 · 开源新旗舰
8B参数,性能越级超越72B,堪称最强端侧多模态
首个高刷「鹰眼级」模型,看得准、看得快、看得长!
鹰眼视觉
30B以下最强多模态
单图理解领先GPT-4o
视频理解超越Qwen-VL
文档解析同级最佳
端侧友好极致能效
模型亮点一览
首个高刷模型
首个「高刷视频理解」多模态模型,兼顾性能与效率
同等视觉token开销下,可接收6倍视频帧数,达到96倍视觉压缩率,是同类模型的12-24倍
在MotionBench、FavorBench榜单中达到同尺寸SOTA,超越Qwen2.5-VL 72B
最强多模态
30B以下最强多模态,多项能力越级领先
图片理解(OpenCompass)领先GPT-4o、Gemini-2.0-Pro等闭源模型;长视频、OCR、文档解析等能力均达到同级SOTA,并超越Qwen2.5-VL 72B
端侧友好
极致推理性价比,最佳推理效率
显存占用、平均推理时间等优势显著,采用3帧打包策略推理,时间开销(未计抽帧)仅为同级模型的1/10
可控推理
支持长思考、短思考可控混合推理
常规模式提供出色多模态理解能力,深度思考模式专注复杂与复合型推理任务,实现性能与响应速度的有效平衡
从“看PPT”到“理解动态画面”
此前,主流多模态模型通常采取 1fps 抽帧,缺失了绝大部分视觉信息。MiniCPM-V 4.5 将视觉能力从 1fps 升级到 10fps,通过显著增加抽帧频次,瞬间捕捉,洞见细节,面对一闪而过的画面,比顶尖云端模型,如 GPT/Gemini,看得更准、更细。
在体现高刷视频理解能力的 MotionBench、FavorBench 两项榜单中,MiniCPM-V 4.5 达到同尺寸 SOTA,且超过 Qwen2.5-VL 72B,实现越级领先
全能多模态SOTA表现
图片理解性能
在 OpenCompass 测评中,领先 GPT-4o、GPT-4.1、Gemini-2.0-Pro 等众多闭源模型 ,甚至超过 Qwen2.5-VL 72B,实现越级领先
视频理解性能
在 LVBench、MLVU、Video-MME 等榜单中,均达到同级最佳水平
复杂文档识别
在 OmniDocBench 榜单的 OverallEdit、TextEdit、TableEdit 三项指标上,均取得了通用多模态模型同级别的 SOTA 表现
极致推理性价比
在覆盖短、中、长三种类型的视频理解评测集 Video-MME 上,MiniCPM-V 4.5 采用 3 帧打包策略进行推理,时间开销(未计算模型抽帧时间)仅为同级模型的 1/10
核心技术解析
3D-Resampler:高密度视频压缩
为解决性能和效率的权衡,MiniCPM-V 4.5 将模型结构从 2D-Resampler 拓展为 3D-Resampler。视频按每N帧分组,3D-Resampler 对每个视频组进行高密度压缩编码,得到固定数量的视觉token。在推理开销不变的情况下,实现最大10fps的高刷视频理解能力
统一OCR与知识推理学习
通过连续控制图像中「文字信息可见度」(即对文字框区域施加不同程度的噪音),首次实现 OCR 和知识学习两种范式的有效融合。模型可根据噪音程度,在OCR、知识学习、混合能力学习之间无缝切换,低成本实现领先的 OCR 和多模态知识能力
通用域混合推理强化学习
提出混合推理的强化学习方案,在训练中同时激活常规和深度思考模式,实现在相同训练时长下,常规模式性能显著增强,深度思考模式性能保持。最终通过轻量化的 RLAIF-V 训练,模型在保持推理能力的同时显著降低了幻觉
开源社区传送门
Github
https://github.com/OpenBMB/MiniCPM-o
Hugging Face
https://huggingface.co/openbmb/MiniCPM-V-4_5
ModelScope
https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5
以及...更多的场景演示
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.