网易首页 > 网易号 > 正文 申请入驻

干翻 GPT-4V 的面壁 8B「小钢炮」,被Nature 收录了

0
分享至


大模型已收敛,小模型还有广阔天地。

作者丨陈为锐

编辑丨陈彩娴

当全球 AI 圈还在为千亿参数模型的算力消耗焦头烂额时,一支由清华大学和面壁智能组成的团队,悄悄在边缘设备上完成了一场多模态大模型落地的变革。

日前,《Nature Communications》正式收录了面壁智能此前发布的一项研究成果,该项研究推出了新模型 MiniCPM-V 系列,并重点介绍了首批 3 个模型,包括 MiniCPM-V 1.0、MiniCPM-V 2.0 和 MiniCPM-Llama3-V 2.5。

MiniCPM-V 1.0 使用预训练阶段 1&2 和 SFT 进行训练,未使用自适应视觉编码和 RLAIF-V;MiniCPM-V 2.0 包含了所有训练阶段和自适应视觉编码策略,以进一步提升性能;MiniCPM-Llama3-V 2.5 采用 Llama3-Instruct 8B 作为其基础 LLM,展现多模态理解能力。

研究结果表明,MiniCPM-V 仅用 80 亿参数就实现了 GPT-4V 级别的多模态能力,不仅在 11 个权威基准测试中全面超越 GPT-4V、Gemini Pro 和 Claude 3 等头部模型,更颠覆了人们对边缘计算的认知,让手机端也能运行媲美云端的多模态大模型。

Nature Communications 地址:https://www.nature.com/articles/s41467-025-61040-5

01
80 亿参数干翻 GPT-4V

MiniCPM-V 由三个关键模块组成:视觉编码器、压缩层和 LLM。输入图像首先通过视觉编码器进行编码,采用自适应视觉编码方法,然后,视觉标记由压缩层进行压缩,该层采用具有一层交叉注意力的感知器重采样结构,最后,压缩后的视觉标记以及文本输入被输入到 LLM 中进行条件文本生成。

图源:Nature

作为面向边缘设备的高效多模态大语言模型,MiniCPM-V 系列的技术创新主要体现在自适应视觉编码、渐进式多模态学习、对齐优化及边缘部署优化四大维度。

为解决高分辨率图像编码的效率与有效性难题,MiniCPM-V 采用了分层处理策略,将图像分割为最多 10 个切片,每个切片调整至与视觉编码器预训练设置匹配的分辨率和纵横比,接着通过 ViT 编码器将每个切片转换为 1024 个视觉令牌,再经压缩层将 token 数量大幅缩减,最后引入空间 schema 标记各切片在原图中的位置关系,确保全局信息完整性,相比传统方法显著降低了计算量与内存占用。

在模型训练阶段,MiniCPM-V 通过大规模图文对实现视觉模块与语言模型的空间对齐,分三阶段逐步扩展输入分辨率并引入 OCR 数据增强文本识别能力;监督微调阶段整合高质量视觉问答数据,而后再通过 RLAIF-V 方法,通过开源模型生成多版本响应并拆分原子声明进行真实性评分,最终利用 DPO 算法优化偏好学习,能有效降低幻觉率。

而真正让 MiniCPM-V 有希望 “颠覆行业” 的,是其在边缘设备上的高效部署能力。

传统多模态模型只能在云端运行,而 MiniCPM-V 通过 4 位量化、内存序贯加载、目标设备编译优化、自动参数搜索及 NPU 加速等技术,实现了在智能手机、PC 等边缘设备上的高效运行,在内存需求从 16-17G 降至 5G 的情况下,实现了编码延迟从 50.5s 降至 17.0s,视觉编码时间缩短 65%,减少了 45.2% 图像处理时间。

在 11 项公开基准测试中,80 亿参数的 MiniCPM-Llama3-V2.5 展现出显著优势:在 OpenCompass 评分中超越 GPT-4V(2023.11.16 版本)、Gemini Pro 和 Claude 3 等专有模型,同时在 OCRBench、TextVQA 等文本识别任务上优于 Qwen-VL-Max 等开源模型,表格转 Markdown 等实用功能表现突出。与强大的专有模型相比,MiniCPM-Llama3-V 2.5 在参数数量显著更少的情况下实现了更好的性能,更适合广泛应用。

图源:Nature

此外,MiniCPM-V 模型也展现出强大的 OCR 能力,包括场景文本、文档和截图理解。模型在 OCRBench、TextVQA 和 DocVQA 上优于 1.7B–34B 的开源 MLLMs,20 亿参数的 V2.0 版本性能超过同规模模型,甚至媲美 80 亿参数模型;幻觉率在 Object HalBench 上低于 GPT-4V。

图源:Nature

效率方面,MiniCPM-V 的推理计算量显著更低。MiniCPM-Llama3-V 2.5 的视觉 token 数量范围是(96,960),低于 LLaVA-NeXT-Llama-3-8B 的(1728,2880),使得其在推理速度、首 token 延迟、内存使用和功耗方面更适配实际设备应用。

不过,尽管性能表现良好,但研究人员也表示,当前的 MiniCPM-V 模型仍存在一些局限性,在多模态理解能力和推理效率方面以及将能力扩展到其他模态方面仍有很大的改进空间。

02
为什么完成从 "云端依赖" 到 "端侧自由" 的跨越很重要?

在我们看来,这篇论文的意义远不止于技术突破,其核心观点在于,如果能实现多模态大模型从云端到端侧的全面转型,或许整个行业能迎来一个新的 “iPhone” 时刻,开启端侧 AI 的黄金时代。

多模态大模型的快速发展为理解、推理和交互的多模态能力带来了飞跃,不仅从根本上重塑了人工智能研究和产业格局,也为通往下一阶段人工智能指明了路径。

然而,当前的多模态大模型仍远未达到实际应用于现实世界的水平,最主要的原因在于多模态大模型庞大参数数量带来的沉重计算负担,使得大多数模型只能部署在高性能云服务器上。这一局限性不仅导致了巨大的能源消耗,还限制了多模态大模型在移动设备、能源敏感场景、无稳定网络连接等离线环境中的潜在应用范围。

此外,对于多模态大模型来说,智能手机和计算机等边缘设备由于散热、尺寸限制和功耗等因素,往往面临资源限制。

在部署模型时,最关键的两大限制是内存容量和 CPU/GPU 处理速度。高性能服务器通常拥有庞大的内存容量,往往超过 100GB 甚至 1TB,相比之下,手机的内存通常在 12GB 到 16GB 之间,这对于 MLLM 部署可能不足。

另一方面,智能手机中 CPU 的整体处理速度明显较慢。对比来看,骁龙 8 Gen3 只有 8 个 CPU 核心,Intel Xeon Platinum 8580 则达到了 60 个 CPU 核心,功效方面,高通 Adreno 750 只有 6 TFLOPS,而 NVIDIA 4090 则可以达到 83 TFLOPS。

也正因此,在行业越来越关注轻量级多模态大语言模型的当下,面壁智能提出了可在边缘设备上部署的 MiniCPM-V 系列,场景涵盖手机、个人电脑、车辆和机器人等更广泛的设备范围。

MiniCPM-V 的理念是在性能和效率之间取得良好平衡,有望成为多模态大模型小型化趋势的一个代表案例。

根据研究人员的说法,在总结多模态大模型在性能、参数和发布时间方面的最新发展后,可以观察到一条类似摩尔定律的趋势:达到 GPT-4V 级别性能的模型大小随着时间的推移迅速减小,这种现象或许可以被称为 MLLMs 的摩尔定律。

同时,手机和个人电脑等边缘设备的计算能力正在稳步增加,这两种趋势的融合表明,可在边缘设备上部署的可用(例如 GPT-4V 级别)多模态大模型很快就会落地。

这种离线智能的实现,让端侧设备完成了从功能机到智能机的跨越,设备不再是云端显示器,而是成为真正的智能主体。

在多台边缘设备上部署 MiniCPM-V。得益于部署优化技术,MiniCPM-Llama3-V 2.5 可以在手机和个人电脑上高效运行,提供可接受的延迟和吞吐量(图源:Nature)

在端侧智能的需求下,MiniCPM-V 能够登上《Nature Communications》,原因之一或许在于其揭开了这场智能革命的一角,推动着 AI 从 "少数人的工具" 走向 "大众的能力"的变化。当 80 亿参数的模型能在手机上流畅运行,普通人也能在更安全、更多元的场景下享受多模态智能。

随着边缘计算能力的持续提升和模型效率的不断优化,AI 普及化的下一个爆发点,将出现在每个人的指尖之下、设备之中。边缘智能的时代,正在加速到来。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
WTT新加坡大满贯:女单四强国乒占三席,男单又只剩独苗王楚钦

WTT新加坡大满贯:女单四强国乒占三席,男单又只剩独苗王楚钦

上观新闻
2026-03-01 04:53:04
男子在300公里高速沿途累计发现62具猫狗尸体,其中不少身穿宠物衣服,推测系带猫狗上高速不放车内遭遇意外

男子在300公里高速沿途累计发现62具猫狗尸体,其中不少身穿宠物衣服,推测系带猫狗上高速不放车内遭遇意外

大风新闻
2026-02-28 11:54:08
周扒皮都怕!女儿替父请假2小时遭辞退,店已关门,老板底裤被扒

周扒皮都怕!女儿替父请假2小时遭辞退,店已关门,老板底裤被扒

火山詩话
2026-02-28 06:38:05
千笔楼|"Becoming Chinese",怎么就火了?

千笔楼|"Becoming Chinese",怎么就火了?

新华社
2026-02-28 18:29:25
当知道哈兰德缺阵时战术做了什么改变?瓜帅:没有改变

当知道哈兰德缺阵时战术做了什么改变?瓜帅:没有改变

懂球帝
2026-03-01 05:32:22
美方将对伊朗行动评估为“高风险高回报”

美方将对伊朗行动评估为“高风险高回报”

界面新闻
2026-02-28 23:17:08
戏子误国!春节刚过就有4位明星相继塌房,走到这一步不值得同情

戏子误国!春节刚过就有4位明星相继塌房,走到这一步不值得同情

墨印斋
2026-02-26 06:21:37
足坛一夜动态!巴萨主场13连胜,拜仁绝杀多特,曼城施压阿森纳

足坛一夜动态!巴萨主场13连胜,拜仁绝杀多特,曼城施压阿森纳

钉钉陌上花开
2026-03-01 04:07:12
美媒称自由式滑雪女王谷爱凌“浮现新谜团” ,出生记录父亲栏为空白

美媒称自由式滑雪女王谷爱凌“浮现新谜团” ,出生记录父亲栏为空白

阿废冷眼观察所
2026-02-28 16:14:52
台湾回归新方案浮出水面:国民党若同意,解放军或无需动武

台湾回归新方案浮出水面:国民党若同意,解放军或无需动武

万千归途
2026-03-01 04:50:41
打伊朗前,美国先找了中国,特朗普知道:他错一步中国就不战而胜

打伊朗前,美国先找了中国,特朗普知道:他错一步中国就不战而胜

通文知史
2026-02-24 23:40:03
就在刚刚,伊朗导弹报复,以色列大城市爆炸,美以根本没做好准备

就在刚刚,伊朗导弹报复,以色列大城市爆炸,美以根本没做好准备

知法而形
2026-02-28 18:02:55
国家德比2-3神剧情:4.8亿豪门遭绝杀 16轮不败终结 落后榜首11分

国家德比2-3神剧情:4.8亿豪门遭绝杀 16轮不败终结 落后榜首11分

狍子歪解体坛
2026-03-01 04:00:49
雷军直播再提新一代SU7门把手:极端情况下,大小电池同时断电,门把手依然保留纯机械解锁能力

雷军直播再提新一代SU7门把手:极端情况下,大小电池同时断电,门把手依然保留纯机械解锁能力

时代财经
2026-02-28 10:46:20
53岁李冰冰在巴黎杀疯了!白到发光隐现腹肌,这状态真不是人类?

53岁李冰冰在巴黎杀疯了!白到发光隐现腹肌,这状态真不是人类?

草莓解说体育
2026-02-06 05:59:56
吴宜泽从1-4追到4-4,打丢关键黑球出局!赵心童的含金量还在上升

吴宜泽从1-4追到4-4,打丢关键黑球出局!赵心童的含金量还在上升

球场没跑道
2026-03-01 01:51:22
以色列官员称哈梅内伊在以军空袭中身亡

以色列官员称哈梅内伊在以军空袭中身亡

财联社
2026-03-01 04:12:04
国际刑事法院检察官:杜特尔特是菲律宾禁毒战“最应负责的人”

国际刑事法院检察官:杜特尔特是菲律宾禁毒战“最应负责的人”

仙气美少女
2026-02-28 18:54:56
瑞典评论员大赞陈垣宇!莫雷加德直言把我看穿,郭焱:拼劲十足

瑞典评论员大赞陈垣宇!莫雷加德直言把我看穿,郭焱:拼劲十足

排球黄金眼
2026-03-01 00:15:08
晚饭七分饱被推翻了?医生调查:过了71岁,吃饭尽量要做到这3点

晚饭七分饱被推翻了?医生调查:过了71岁,吃饭尽量要做到这3点

健康科普365
2026-02-28 19:40:03
2026-03-01 06:04:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7098文章数 20733关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

以官员称哈梅内伊身亡 遗体在其官邸废墟中被找到

头条要闻

以官员称哈梅内伊身亡 遗体在其官邸废墟中被找到

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

周杰伦儿子正面照曝光,与父亲好像

财经要闻

冲突爆发 市场变天?

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

本地
游戏
时尚
公开课
军事航空

本地新闻

津南好·四时总相宜

所有人保持嘴角不变!生化危机:安魂曲里昂骚话大盘点

这6款发色居然这么火?50张图可以直接给tony

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国以色列联合袭击伊朗 实时战况

无障碍浏览 进入关怀版