网易首页 > 网易号 > 正文 申请入驻

干翻 GPT-4V 的面壁 8B「小钢炮」,被Nature 收录了

0
分享至


大模型已收敛,小模型还有广阔天地。

作者丨陈为锐

编辑丨陈彩娴

当全球 AI 圈还在为千亿参数模型的算力消耗焦头烂额时,一支由清华大学和面壁智能组成的团队,悄悄在边缘设备上完成了一场多模态大模型落地的变革。

日前,《Nature Communications》正式收录了面壁智能此前发布的一项研究成果,该项研究推出了新模型 MiniCPM-V 系列,并重点介绍了首批 3 个模型,包括 MiniCPM-V 1.0、MiniCPM-V 2.0 和 MiniCPM-Llama3-V 2.5。

MiniCPM-V 1.0 使用预训练阶段 1&2 和 SFT 进行训练,未使用自适应视觉编码和 RLAIF-V;MiniCPM-V 2.0 包含了所有训练阶段和自适应视觉编码策略,以进一步提升性能;MiniCPM-Llama3-V 2.5 采用 Llama3-Instruct 8B 作为其基础 LLM,展现多模态理解能力。

研究结果表明,MiniCPM-V 仅用 80 亿参数就实现了 GPT-4V 级别的多模态能力,不仅在 11 个权威基准测试中全面超越 GPT-4V、Gemini Pro 和 Claude 3 等头部模型,更颠覆了人们对边缘计算的认知,让手机端也能运行媲美云端的多模态大模型。

Nature Communications 地址:https://www.nature.com/articles/s41467-025-61040-5

01
80 亿参数干翻 GPT-4V

MiniCPM-V 由三个关键模块组成:视觉编码器、压缩层和 LLM。输入图像首先通过视觉编码器进行编码,采用自适应视觉编码方法,然后,视觉标记由压缩层进行压缩,该层采用具有一层交叉注意力的感知器重采样结构,最后,压缩后的视觉标记以及文本输入被输入到 LLM 中进行条件文本生成。

图源:Nature

作为面向边缘设备的高效多模态大语言模型,MiniCPM-V 系列的技术创新主要体现在自适应视觉编码、渐进式多模态学习、对齐优化及边缘部署优化四大维度。

为解决高分辨率图像编码的效率与有效性难题,MiniCPM-V 采用了分层处理策略,将图像分割为最多 10 个切片,每个切片调整至与视觉编码器预训练设置匹配的分辨率和纵横比,接着通过 ViT 编码器将每个切片转换为 1024 个视觉令牌,再经压缩层将 token 数量大幅缩减,最后引入空间 schema 标记各切片在原图中的位置关系,确保全局信息完整性,相比传统方法显著降低了计算量与内存占用。

在模型训练阶段,MiniCPM-V 通过大规模图文对实现视觉模块与语言模型的空间对齐,分三阶段逐步扩展输入分辨率并引入 OCR 数据增强文本识别能力;监督微调阶段整合高质量视觉问答数据,而后再通过 RLAIF-V 方法,通过开源模型生成多版本响应并拆分原子声明进行真实性评分,最终利用 DPO 算法优化偏好学习,能有效降低幻觉率。

而真正让 MiniCPM-V 有希望 “颠覆行业” 的,是其在边缘设备上的高效部署能力。

传统多模态模型只能在云端运行,而 MiniCPM-V 通过 4 位量化、内存序贯加载、目标设备编译优化、自动参数搜索及 NPU 加速等技术,实现了在智能手机、PC 等边缘设备上的高效运行,在内存需求从 16-17G 降至 5G 的情况下,实现了编码延迟从 50.5s 降至 17.0s,视觉编码时间缩短 65%,减少了 45.2% 图像处理时间。

在 11 项公开基准测试中,80 亿参数的 MiniCPM-Llama3-V2.5 展现出显著优势:在 OpenCompass 评分中超越 GPT-4V(2023.11.16 版本)、Gemini Pro 和 Claude 3 等专有模型,同时在 OCRBench、TextVQA 等文本识别任务上优于 Qwen-VL-Max 等开源模型,表格转 Markdown 等实用功能表现突出。与强大的专有模型相比,MiniCPM-Llama3-V 2.5 在参数数量显著更少的情况下实现了更好的性能,更适合广泛应用。

图源:Nature

此外,MiniCPM-V 模型也展现出强大的 OCR 能力,包括场景文本、文档和截图理解。模型在 OCRBench、TextVQA 和 DocVQA 上优于 1.7B–34B 的开源 MLLMs,20 亿参数的 V2.0 版本性能超过同规模模型,甚至媲美 80 亿参数模型;幻觉率在 Object HalBench 上低于 GPT-4V。

图源:Nature

效率方面,MiniCPM-V 的推理计算量显著更低。MiniCPM-Llama3-V 2.5 的视觉 token 数量范围是(96,960),低于 LLaVA-NeXT-Llama-3-8B 的(1728,2880),使得其在推理速度、首 token 延迟、内存使用和功耗方面更适配实际设备应用。

不过,尽管性能表现良好,但研究人员也表示,当前的 MiniCPM-V 模型仍存在一些局限性,在多模态理解能力和推理效率方面以及将能力扩展到其他模态方面仍有很大的改进空间。

02
为什么完成从 "云端依赖" 到 "端侧自由" 的跨越很重要?

在我们看来,这篇论文的意义远不止于技术突破,其核心观点在于,如果能实现多模态大模型从云端到端侧的全面转型,或许整个行业能迎来一个新的 “iPhone” 时刻,开启端侧 AI 的黄金时代。

多模态大模型的快速发展为理解、推理和交互的多模态能力带来了飞跃,不仅从根本上重塑了人工智能研究和产业格局,也为通往下一阶段人工智能指明了路径。

然而,当前的多模态大模型仍远未达到实际应用于现实世界的水平,最主要的原因在于多模态大模型庞大参数数量带来的沉重计算负担,使得大多数模型只能部署在高性能云服务器上。这一局限性不仅导致了巨大的能源消耗,还限制了多模态大模型在移动设备、能源敏感场景、无稳定网络连接等离线环境中的潜在应用范围。

此外,对于多模态大模型来说,智能手机和计算机等边缘设备由于散热、尺寸限制和功耗等因素,往往面临资源限制。

在部署模型时,最关键的两大限制是内存容量和 CPU/GPU 处理速度。高性能服务器通常拥有庞大的内存容量,往往超过 100GB 甚至 1TB,相比之下,手机的内存通常在 12GB 到 16GB 之间,这对于 MLLM 部署可能不足。

另一方面,智能手机中 CPU 的整体处理速度明显较慢。对比来看,骁龙 8 Gen3 只有 8 个 CPU 核心,Intel Xeon Platinum 8580 则达到了 60 个 CPU 核心,功效方面,高通 Adreno 750 只有 6 TFLOPS,而 NVIDIA 4090 则可以达到 83 TFLOPS。

也正因此,在行业越来越关注轻量级多模态大语言模型的当下,面壁智能提出了可在边缘设备上部署的 MiniCPM-V 系列,场景涵盖手机、个人电脑、车辆和机器人等更广泛的设备范围。

MiniCPM-V 的理念是在性能和效率之间取得良好平衡,有望成为多模态大模型小型化趋势的一个代表案例。

根据研究人员的说法,在总结多模态大模型在性能、参数和发布时间方面的最新发展后,可以观察到一条类似摩尔定律的趋势:达到 GPT-4V 级别性能的模型大小随着时间的推移迅速减小,这种现象或许可以被称为 MLLMs 的摩尔定律。

同时,手机和个人电脑等边缘设备的计算能力正在稳步增加,这两种趋势的融合表明,可在边缘设备上部署的可用(例如 GPT-4V 级别)多模态大模型很快就会落地。

这种离线智能的实现,让端侧设备完成了从功能机到智能机的跨越,设备不再是云端显示器,而是成为真正的智能主体。

在多台边缘设备上部署 MiniCPM-V。得益于部署优化技术,MiniCPM-Llama3-V 2.5 可以在手机和个人电脑上高效运行,提供可接受的延迟和吞吐量(图源:Nature)

在端侧智能的需求下,MiniCPM-V 能够登上《Nature Communications》,原因之一或许在于其揭开了这场智能革命的一角,推动着 AI 从 "少数人的工具" 走向 "大众的能力"的变化。当 80 亿参数的模型能在手机上流畅运行,普通人也能在更安全、更多元的场景下享受多模态智能。

随着边缘计算能力的持续提升和模型效率的不断优化,AI 普及化的下一个爆发点,将出现在每个人的指尖之下、设备之中。边缘智能的时代,正在加速到来。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视刚用4亿拿下美加墨世界杯,还不到2周已签2家分销,进账32亿

央视刚用4亿拿下美加墨世界杯,还不到2周已签2家分销,进账32亿

墨印斋
2026-05-28 11:46:25
创纪录!《黄石》宇宙新剧首播破纪录,收视狂潮席卷全球

创纪录!《黄石》宇宙新剧首播破纪录,收视狂潮席卷全球

浅遇时光
2026-05-28 01:03:32
被曝停火60天后,美国锁定伊朗打击新目标,考虑重启名为“大锤”的军事行动

被曝停火60天后,美国锁定伊朗打击新目标,考虑重启名为“大锤”的军事行动

上观新闻
2026-05-28 03:54:05
一年捕食三千只蚊子,八年才缓慢长大,竟被人类当作美食疯狂捕捉

一年捕食三千只蚊子,八年才缓慢长大,竟被人类当作美食疯狂捕捉

万象硬核本尊
2026-05-28 21:24:47
女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

蝴蝶花雨话教育
2026-05-07 00:05:04
2011年,她全裸接受记者采访,并称:我敢看你们,你们敢看我吗?

2011年,她全裸接受记者采访,并称:我敢看你们,你们敢看我吗?

触摸史迹
2026-04-08 16:02:42
买不起迪士尼5400元一对一服务,中产开始雇「野生车夫」帮占位跑腿

买不起迪士尼5400元一对一服务,中产开始雇「野生车夫」帮占位跑腿

Vista氢商业
2026-05-28 16:17:06
百万粉丝女网红捐款1047万?本人回应:两位粉丝捐出1千万,个人捐了47万,希望能帮到更多需要帮助的人

百万粉丝女网红捐款1047万?本人回应:两位粉丝捐出1千万,个人捐了47万,希望能帮到更多需要帮助的人

潇湘晨报
2026-05-26 22:14:27
CBA最新消息:怀特赛德尿检真相大白,G2裁判调整,徐杰特训反转

CBA最新消息:怀特赛德尿检真相大白,G2裁判调整,徐杰特训反转

生活新鲜市
2026-05-28 14:33:10
广州珠江新城一知名商场,“卖”了!

广州珠江新城一知名商场,“卖”了!

南方都市报
2026-05-28 08:35:29
台军机拍摄解放军空中加油作业,国防部:“台独”武装最好不要干扰挑衅

台军机拍摄解放军空中加油作业,国防部:“台独”武装最好不要干扰挑衅

澎湃新闻
2026-05-28 17:00:26
良心!游戏官方通知玩家先别买:“马上打折”

良心!游戏官方通知玩家先别买:“马上打折”

游民星空
2026-05-28 20:18:10
国王等了16年,却被一个“最差主帅”救活了

国王等了16年,却被一个“最差主帅”救活了

茅塞盾开本尊
2026-05-26 14:13:56
男子在海底捞喝饮料疑吞下玻璃杯碎片,跑3家医院、拍7次CT仍未解决,确诊轻度抑郁!火锅店称将“负责到底”

男子在海底捞喝饮料疑吞下玻璃杯碎片,跑3家医院、拍7次CT仍未解决,确诊轻度抑郁!火锅店称将“负责到底”

闪电新闻
2026-05-27 20:40:12
高调 34岁内马尔坐私人飞机抵达巴西训练营 随后因伤宣布退出训练

高调 34岁内马尔坐私人飞机抵达巴西训练营 随后因伤宣布退出训练

风过乡
2026-05-28 06:38:09
情人关系中,女人突然跟你断联,一般是这些原因

情人关系中,女人突然跟你断联,一般是这些原因

叶飞飞情感屋
2026-05-28 13:21:35
从年赚358亿到巨亏234亿,美团为啥沦落至此,难怪国家禁外卖大战

从年赚358亿到巨亏234亿,美团为啥沦落至此,难怪国家禁外卖大战

阿丰聊娱
2026-04-03 14:51:31
1.2亿欧!巴萨终于敲定新巨星,夏窗有钱操作,莱万接班人来了

1.2亿欧!巴萨终于敲定新巨星,夏窗有钱操作,莱万接班人来了

祥谈体育
2026-05-27 20:53:42
终于遭“报应”了!坑了我国20亿,如今卫星系统几乎全面瘫痪

终于遭“报应”了!坑了我国20亿,如今卫星系统几乎全面瘫痪

烟雨洛神生
2026-05-27 10:04:14
欧协联夺冠即换帅!水晶宫敲定伊劳拉,预算远超AC米兰

欧协联夺冠即换帅!水晶宫敲定伊劳拉,预算远超AC米兰

星耀国际足坛
2026-05-28 23:52:56
2026-05-29 00:52:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7314文章数 20754关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

媒体:特朗普犯下两个致命失误 美方谈判底线持续退让

头条要闻

媒体:特朗普犯下两个致命失误 美方谈判底线持续退让

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

小米仍需一次创业

汽车要闻

宋Ultra DM-i售12.99万起 选装天神之眼B承诺一年城市领航兜底

态度原创

教育
家居
数码
房产
公开课

教育要闻

5月23日雅思小作文示范写作 | 某国现场观看体育比赛人数比例

家居要闻

蜂鸟餐椅 线面交错

数码要闻

慧荣发布AI负载优化SSD主控SM2524XT:14GB/s,DRAM-less

房产要闻

突发重磅!三亚新机场公司正式成立!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版