网易首页 > 网易号 > 正文 申请入驻

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

0
分享至

端侧大模型的解耦难题:是模型适配终端,还是终端适配模型?

作者 | 西西

编辑 | 陈彩娴

在刚刚过去的机器人学术顶会 ICRA 2024上,「具身智能」成为热议,其中围绕具身智能的一个普遍疑问是:若将 AI 大模型应用到消费级机器人领域,首先是模型适配终端,还是终端适配模型?

过去一年,由于6B、7B 等小模型的成果井喷,以及 MoE 训练技术的越发成熟,将模型跑在手机、学习机、平板电脑、机器人甚至汽车等等终端应用上的想象力开始变大,无论算法层还是硬件层都「蠢蠢欲动」。诚然,这已经成为一个明朗的行业方向,但在系统整合上却要面临不同话语体系之间的博弈。

以机器人为例。从算法层看,将模型做小是关键,但硬件厂商关心的却是模型能否适配自身的产品:

首先,消费机器人有固定的产品周期,从研发到投入市场往往要经历大半年到一年半左右的时间。因此,尽管 ChatGPT 破圈后已经过去一年多,但目前已经上市的扫地机中却没有已经部署大模型的产品;

其次,硬件底层的芯片有上限,芯片设计完后就是一个性能参数限定的「物理」产品,其中带宽能跑多少、内存能用多大都已经是已知数,这就直接了应用在硬件上的 AI 模型能用多大参数、跑多快速度。

因此,机器人厂商普遍关注两个问题:一是如何将目标尺寸的大模型跑在固有的芯片上,二是如何使大模型服务好已有的场景,如扫地、语音交互等。

同样的问题也出现在其他的终端应用领域,如手机、平板、学习机等。此外,由于视觉是上一代 AI 与终端应用结合的主流,如智能手机中的人脸识别、语音交互,多模态也成为端侧大模型的性能首选。

这意味着,接下来的端侧大模型爆发将离不开三个要素:一,满足产品形态与适配芯片的需求;二,具备多模态模型能力;三,能够在长周期的产品研发投入中保持具有竞争力的价格优势。

但目前,国内外大模型厂商能聚焦、兼顾三者的团队寥寥无几。这意味着,在未来的2024年乃至2025年,能够在适配、性能与价格上率先拔得头筹的算法团队,将能赢得端侧 AI 领域的最终话语权。

图注:OpenCompass 榜单变化显示,小参数、高性能模型逐渐成为 AI 技术趋势

据 AI 科技评论观察,国内的大模型团队在端侧上也发力迅猛。以多模态能力为例,国外 OpenAI、谷歌,国内阿里、面壁智能等均在20B 以内参数规模的小模型上有布局。而据了解,20亿几乎是目前国内芯片厂商正在研发的终端芯片主流支持的参数规模,而面壁正是这一参数量级的代表性玩家。

而近日,主打「小钢炮」的面壁智能所发布的新成果更尤为值得关注!继被吴恩达大力推广的 ChatDev 后,面壁在端侧模型上频出奇招,再次推出端侧多模态模型 MiniCPM-Llama3-V 2.5,直接干翻 GPT-4V 与多模态巨无霸 Gemini Pro,引起了海内外的广泛关注。

1

端侧小模型 SOTA 诞生?

据了解,面壁智能最新发布的多模态模型 MiniCPM-Llama3-V 2.5性能飞跃,今非昔比:

  • 多模态能力飞升:参数规模仅8B,综合性能却超越谷歌的多模态巨无霸 Gemini Pro 与 OpenAI 的 GPT-4V;

  • OCR 能力 SOTA:能够精准识别长图、难图与长文本,9倍像素更清晰,同时具备识别与推理能力;

  • 手机端突破:首次整合 NPU 和 CPU 加速框架, 对手机端多模态大模型进行系系统级加速,速度提升150倍;

  • 多语种能力:支持30多种语言,除了中英双语,还包括法语、德语、西班牙语等等主流语言,基本覆盖了一带一路的所有国家;

图注:面壁新模型 MiniCPM-Llama3-V2.5综合能力水平指数

笔者看了表示大为震撼。我们知道面壁在今年1月发布的 MiniCPM 是专攻「以小博大」的端侧模型,但没想到短短3个月,从 MiniCPM-V 到 MiniCPM-V 2.0、再到 MiniCPM-Llama3-V2.5,面壁智能的端侧模型不断迭代,在多模态各项能力上竟取得了如此迅速、耀眼的突破!

在综合评测权威平台 OpenCompass 上,面壁 MiniCPM-Llama3-V2.5以小博大,以8B 量级综合性能超越多模态巨无霸 GPT-4V 和 Gemini Pro,是目前端侧最强的模型:

多模态能力是当前大模型最核心的竞争力之一,手机、PC 等智能终端设备因其高频的影像视觉处理需求,对在端侧部署 AI 模型提出了更高的多模态识别与推理能力要求。

具体从 OCR 识别、模型幻觉能力与空间理解能力来看的话,面壁的最新 MiniCPM-Llama3-V2.5实现了开源模型的性能 SOTA。展开来看:

OCR 识别中,在 OCR 综合能⼒权威榜单 OCRBench上,面壁「多模态小钢炮」超越了Claude 3V Opus、GeminiPro 等标杆模型,也超过了原先排名第一的上海人工智能实验室 InternVL-Chat-V1.5、最新霸榜第一!

排名第二的 InternVL-Chat-V1.5虽然没有比面壁 MiniCPM-Llama3-V2.5落后太多,但前者参数是后者的3倍。

幻觉能力上,MiniCPM-Llama3-V 2.5在Object HalBench 榜单上超越了 GPT-4V 等众多模型(注:目标幻觉率应为0):

空间理解能力上,在专注于评估多模态模型基本现实世界空间理解能力的 RealWorldQA 榜单上,MiniCPM-Llama3-V 2.5再次超越 GPT-4V 和 Gemini Pro:

面壁智能 CTO 曾国洋在数月前告诉过 AI 科技评论,他一直认为模型的空间理解能力是实现 AGI 的几个重要组成能力之一。要实现 AGI,现有的长文本长序列架构还不能满足,AGI 还需要一个更好的框架来解决模型的记忆与学习问题,一块是空间记忆,另一块则是经验学习。

从这个思路看,面壁智能 MiniCPM-Llama3-V2.5的发布,或者不只表明了面壁在端侧模型上的突破,还有更宏大的 AGI 愿景。

2

「识别」、「推理」比翼双飞

关于多模态,过去行业的标杆成果往往以物体精准识别为主,但大规模预训练语言模型诞生后,AI 模型的常识与推理能力愈发成为考量多模态模型的关键维度。

能同时兼顾「识别」与「推理」能力的多模态模型凤毛麟角,此次面壁发布的8B 多模态小模型成为了其中之一。多个案例展示了面壁多模态小钢炮的识别-推理能力:

1)《三体》相关建筑图识别推理——

面壁智能 MiniCPM-Llama3-V 2.5很快就能推理出这些建筑是为了纪念《三体》及其对中国科幻文学的贡献而设计:

但 GPT-4V 则答非所问:

2)手机图片识别与信息提取、结构化输出——

输入一张手机拍摄的火车票,MiniCPM-Llama3-V 2.5能准确提取信息,给出无误的「json」格式输出:

3)高精尖行业学术论文图表分析——

给 MiniCPM-Llama3-V 2.5一张包含复杂逻辑的流程图:

MiniCPM-Llama3-V 2.5不仅能够轻松看懂流程图中不同模块的文字、箭头之间的空间位置和复杂逻辑关系 ,还能给出清晰易懂的解释说明:

4)长图长文本识别与信息推理——

输入一张包含稠密信息的长文长图:

↓向下滑动查看长图内容↓

向 MiniCPM-Llama3-V 2.5提问,其能直接根据长图信息进行推理问答:

复杂推理能力对多模态大模型至关重要,它使得模型不仅能理解单一的文本或图像等模态信息,还能跨越不同模态间的综合信息,做出更加准确和深入的分析。

MiniCPM-Llama3-V 2.5进一步升级,可深入洞察图像,在更复杂、更接近人类的水平上进行思考和解决问题,无疑是 AI 大模型中的「小福尔摩斯」。

此外,在视觉一块,面壁 MiniCPM-V 系列模型也实现了识别图像像素的飞升。

据面壁智能透露,有别于传统技术仅能识别20万像素小图,MiniCPM-V 系列可以高效编码及无损识别180万高清像素图片,并且支持任意长宽比图像识别、甚至「有点变态」的1:9极限宽高比。

3

多语种能力增强

端侧部署迎来春天

具体在手机、学习机等等端侧的部署应用上,除了识别与推理的能力一体化,面壁 MiniCPM-Llama3-V2.5的另外两项优势体现在多语种能力与端侧部署加速上。

多语种能力

得益于 VisCPM 的跨语言泛化技术,在中英双语多模态能力的基础上,MiniCPM-Llama3-V2.5仅通过少量翻译的多模态数据的指令微调,高效泛化支持了德语、法语、西班牙语、意大利语、俄语等30+ 种语言的多模态能力,几乎覆盖了所有一带一路的国家,意味着全球上百个国家的数十亿人口,都能与 MiniCPM-Llama3-V2.5丝滑交互。

此处 GIF 为2倍速,我们正进一步加速优化中

在对话中,MiniCPM-Llama3-V2.5表现出了良好的多语言多模态对话性能。

与目前国内较为领先的零一万物多模态模型 Yi-VL 34B 为参照,多语言版本 LLaVABench 评测结果显示,MiniCPM-Llama3-V2.5对话能力更胜一筹:

需要注意的是,并非所有基于 Llama3微调的模型都有出色的能力,这中间依然涉及到高门槛的训练技巧。例如,Bunny-Llama-3-8B、XTuner-Llama3-8B-v1.1、LLaVA-NeXT Llama-3-8B 等模型均是借鉴 Llama3,但在综合能力上却远远落后于 MiniCPM-Llama3-V2.5:

端侧部署

如前所述,由于终端硬件产品的物理限制,部署到端侧的 AI 模型既要满足硬件的端侧要求,并在成本可控的情况下实现同等参数性能最佳、同等性能参数最小。

在图像编码方面,面壁首次整合 NPU 和 CPU 加速框架,在 MiniCPM-Llama3-V 2.5图像编码方面实现了150倍加速提升。

在语言模型推理方面,目前开源社区的报告结果中,Llama 3语言模型在手机端侧的解码速度在0.5 token/s 上下,相比之下,多模态大模型的端侧运行面临着更大的效率挑战,经过 CPU、编译优化、显存管理等优化方式,面壁将 MiniCPM-Llama3-V 2.5在手机端的语言解码速度提升到3-4 token/s。目前,语言模型的图像编码加速也在进行中,更灵敏互动体验即将到来。

总的来说,面壁最新取得的端侧 多模态模型成果 MiniCPM-Llama3-V 2.5是国产端侧之光,加速了国产大模型部署在端侧的节奏,也给端侧 AI 行业提供了多方位的参考。

换言之,在大模型时代,「让终端硬件变得更智能」不再是一个概念性的说法,而是一个正在发生的现实。面壁之后,期待更多国产大模型团队带来更多振奋人心的端侧 AI 创新成果!

MiniCPM-Llama3-V 2.5开源地址:https://github.com/OpenBMB/MiniCPM-V

责任编辑:郜雪丹_NT5097

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马杜罗前保镖,出任要职

马杜罗前保镖,出任要职

新京报政事儿
2026-01-13 12:22:15
拍照被喝止!市民发问地铁站内到底能否拍照?官方回应

拍照被喝止!市民发问地铁站内到底能否拍照?官方回应

南方都市报
2026-01-12 16:57:09
被大家猜中了!洗碗机的女主角起号成功,直播间人数超过3000…

被大家猜中了!洗碗机的女主角起号成功,直播间人数超过3000…

火山诗话
2026-01-10 15:13:33
从得分王到纪录超越者:哈登的“25.6分赛季”与两大里程碑之夜

从得分王到纪录超越者:哈登的“25.6分赛季”与两大里程碑之夜

大眼瞄世界
2026-01-13 09:06:55
闫学晶的拼搏:20岁嫁30岁小老板,给8岁小妹妹当后妈

闫学晶的拼搏:20岁嫁30岁小老板,给8岁小妹妹当后妈

小小河
2026-01-10 20:21:22
欧媒:中国都上桌了,500年来头一次,瓜分世界怎能没有欧洲的份

欧媒:中国都上桌了,500年来头一次,瓜分世界怎能没有欧洲的份

阿器谈史
2025-12-25 21:09:35
报应来了!捐给美国7千万,满嘴“中国穷关我啥事”,如今破产了

报应来了!捐给美国7千万,满嘴“中国穷关我啥事”,如今破产了

来科点谱
2026-01-13 08:59:42
美女美图8199期

美女美图8199期

草莓解说体育
2026-01-09 05:37:39
斯基拉:34岁的坎特向费内巴切索要两年半的合同

斯基拉:34岁的坎特向费内巴切索要两年半的合同

懂球帝
2026-01-13 10:33:16
空中技巧世界杯落幕!徐梦桃第7次加冕总冠军,中国队夺国家杯

空中技巧世界杯落幕!徐梦桃第7次加冕总冠军,中国队夺国家杯

全景体育V
2026-01-13 10:03:03
山东一私人诊所张贴“放弃低端患者”公告,当地卫健局:严重背离医者仁心,已约谈整改

山东一私人诊所张贴“放弃低端患者”公告,当地卫健局:严重背离医者仁心,已约谈整改

上游新闻
2026-01-13 10:32:05
多哈落幕世界排名更新:王楚钦仍居第一,林昀儒林诗栋排名更新

多哈落幕世界排名更新:王楚钦仍居第一,林昀儒林诗栋排名更新

猪猪爱影视
2026-01-13 12:15:41
柬埔寨首相感谢中国

柬埔寨首相感谢中国

新民周刊
2026-01-12 09:07:08
太厉害了!快去用中医诊断航空发动机吧

太厉害了!快去用中医诊断航空发动机吧

走读新生
2026-01-12 11:00:04
林昀儒险胜张本智和后,扎心一幕出现了!男单夺冠后用行动回应一切

林昀儒险胜张本智和后,扎心一幕出现了!男单夺冠后用行动回应一切

好乒乓
2026-01-13 12:14:05
白银大涨7%,创历史新高

白银大涨7%,创历史新高

每日经济新闻
2026-01-13 07:36:26
忍耐5天后,高市向中方喊话,中国官员驳回交涉,国企拒绝卖稀土

忍耐5天后,高市向中方喊话,中国官员驳回交涉,国企拒绝卖稀土

博览历史
2026-01-12 13:13:43
美媒:未获中国技术,印企叫停大项目

美媒:未获中国技术,印企叫停大项目

环球时报国际
2026-01-13 11:52:17
无解?皇马有2个阿隆索完美继任者 但他们都来不了

无解?皇马有2个阿隆索完美继任者 但他们都来不了

雪狼侃体育
2026-01-13 13:47:24
闹大了!金华一工厂老板十多岁儿子对工人吆五喝六,终于集体走人

闹大了!金华一工厂老板十多岁儿子对工人吆五喝六,终于集体走人

火山诗话
2026-01-12 05:54:05
2026-01-13 14:12:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7036文章数 20724关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

59岁女子诞下男婴:大女儿定居国外 我和丈夫感到寂寞

头条要闻

59岁女子诞下男婴:大女儿定居国外 我和丈夫感到寂寞

体育要闻

CBA还能众筹换帅?

娱乐要闻

周杰伦以球员身份参加澳网,C位海报公开

财经要闻

中国一口气申报20万颗卫星,意味着什么?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

亲子
艺术
时尚
教育
游戏

亲子要闻

您吸的每一支烟,透支孩子的健康

艺术要闻

书法争议再起:拙与妍孰优孰劣引发热议

走过那个夏天,甜茶终于站上金球奖之巅

教育要闻

孩子不愿意沟通怎么办?

黑旗&波斯王子RE真要来了?网站疯狂更新!

无障碍浏览 进入关怀版