网易首页 > 网易号 > 正文 申请入驻

面壁发布多模态小钢炮仅仅 8B 参数规模,超越 GPT-4V 和 Gemini Pro

0
分享至


面壁小钢炮 MiniCPM 系列,再次推出最强端侧多模态模型 MiniCPM-Llama3-V 2.5,且支持 30+ 多种语言:


  • 最强端侧多模态综合性能:超越多模态巨无霸 Gemini Pro 、GPT-4V

  • OCR 能力 SOTA!9 倍像素更清晰,难图长图长文本精准识别

  • 图像编码快 150 倍!首次端侧系统级多模态加速


MiniCPM 是以「以小博大」著称的旗舰端侧模型,也不断推新端侧多模态能力天花板—— MiniCPM-Llama3-V 2.5 实现了「以最小参数,撬动最强性能」的最佳平衡点。


OpenCompass 榜单变化显示小参数、高性能模型成为趋势

随着大模型参数愈益降低、端侧算力愈益增强,高性能端侧模型势头强劲。而手机、PC等智能终端设备因其高频的影像视觉处理需求,对在端侧部署AI模型提出了更高的多模态识别与推理能力要求。

从面壁「小钢炮」三月三级跳的迅猛进化来看,推动推理成本大幅降低、大模型高效落地,胜利在望!


➤ MiniCPM-Llama3-V 2.5 开源地址:

https://github.com/OpenBMB/MiniCPM-V

➤ MiniCPM 系列开源地址:

https://github.com/OpenBMB/MiniCPM

➤ Hugging Face 下载地址:

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

1

OCR 能力SOTA+最强端侧多模态,8B端侧模型,超越GPT-4V,Gemini Pro

这一次,MiniCPM-Llama3-V 2.5 以 8B 端侧模型参数量级,贡献了惊艳的 OCR(光学字符识别)SOTA 成绩,以及端侧模型中的最佳多模态综合成绩与幻觉能力水平。


模型雷达图显示 MiniCPM-Llama3-V 2.5 综合能力水平全面优秀

在综合评测权威平台 OpenCompass 上,MiniCPM-Llama3-V 2.5 以小博大,综合性能超越多模态“巨无霸” GPT-4V 和 Gemini Pro。

OCR(光学字符识别)是多模态大模型最重要的能力之一,也是考察多模态识别与推理能力的硬核指标。新一代 MiniCPM-Llama3-V 2.5 在 OCR 综合能⼒权威榜单 OCRBench 上,越级超越了 GPT-4o、GPT-4V、Claude 3V Opus、Gemini Pro 等标杆模型,实现了性能 SOTA。

在评估多模态大模型性能可靠性的重要指标——幻觉能力上,MiniCPM-Llama3-V 2.5 在 Object HalBench 榜单上超越了 GPT-4V 等众多模型(注:目标幻觉率应为 0)。

在旨在评估多模态模型的基本现实世界空间理解能力的 RealWorldQA 榜单上,MiniCPM-Llama3-V 2.5 再次超越 GPT-4V 和 Gemini Pro,这对 8B 模型而言难能可贵。

榜单成绩

OpenCompass | OCRBench | Object HalBench | RealWorldQA





1

快150倍!首次端侧系统级多模态加速,支持 30+预言,拥抱开源社区

首次进行端侧系统加速,MiniCPM-Llama3-V 2.5 已高效部署手机。

在图像编码方面,面壁首次整合 NPU 和 CPU 加速框架,并结合显存管理、编译优化技术,在 MiniCPM-Llama3-V 2.5 图像编码方面实现了 150 倍加速提升。

在语言模型推理方面,目前开源社区的报告结果中,Llama 3 语言模型在手机端侧的解码速度在 0.5 token/s 上下,相比之下,多模态大模型的端侧运行面临着更大的效率挑战,经过 CPU、编译优化、显存管理等优化方式,我们将 MiniCPM-Llama3-V 2.5 在手机端的语言解码速度提升到 3-4 token/s。

目前,语言模型的图像编码加速也在进行中,更灵敏互动体验即将到来。



此处 GIF 为 2 倍速,我们正进一步加速优化中

有别于常见的中英双语模型,MiniCPM-Llama3-V2.5 可支持 30+ 多种语言,包括德语、法语、西班牙语、意大利语、俄语等主流语言,基本覆盖一带一路国家。

基于自研的跨语言泛化技术,仅通过少量翻译的多模态数据的指令微调,就可对多语言多模态对话性能高效泛化。

现在,上百个国家的几十亿人口,终于可以自如使用母语和端侧大模型交流,不再游离于前沿科技发展的主线,也因此享有更多AI应用落地、生活品质提升与参与科技角逐的可能性。真正让更多人享受大模型的乐趣!


多语言案例展示(语言加速工作正在进行,此处为2倍速)


多语言版本 LLaVABench 评测结果,MiniCPM-Llama3-V 2.5 对话能力更胜一筹

1

9倍像素更清晰,难图长图长文本精准识别

OCR 技术进一步打磨,复杂推理与多模态识别能力再进化,MiniCPM-Llama3-V 2.5 对于难图、长图、长文本的精准识别,再度带来出众表现!

面壁自研高清图像高效编码技术,我们可以高效编码及无损识别 180 万高清像素图片,并且支持任意长宽比、甚至「有点变态」的 1:9 极限比例图像,突破了传统技术仅能识别 20 万像素小图的瓶颈。

此前,MiniCPM-V 系列多模态模型就因对于街景、长图等困难场景的高效解析,赢得了良好口碑。


技术升级, MiniCPM-Llama3-V 2.5 在复杂推理能力上进一步突破。可更好地深入洞察图像,在更复杂、更接近人类的水平上进行思考和解决问题,堪称大模型中的“小福尔摩斯”。

复杂推理能力使得模型不仅能理解单一文本或图像等模态信息,还能跨越不同模态间的综合信息,做出更准确和深入的分析。

比如给定一张充满繁密字迹的建筑风景图,人眼难以辨别,但 MiniCPM-Llama3-V 2.5 能够一眼看懂其中的《三体》主题,还能正确推理出这些建筑是为了纪念《三体》及其对中国科幻文学的贡献而设计,令人会心一笑。



把同样的问题抛给GPT-4 V ,结果并不理想。


另外,识别包含复杂逻辑的流程图是多模态模型推理能力的直观体现,MiniCPM-Llama3-V 2.5 不仅能够轻松看懂流程图中不同模块的文字、箭头之间的空间位置和复杂逻辑关系 ,还能给出清晰易懂的解释说明。



给妈妈转发一张亚洲饮食金字塔图,但她读不懂英文?MiniCPM-Llama3-V 2.5 凭借出色的推理能力,不仅深入理解分析图像里的饮食类型和分布,还能洞察背后的营养均衡需求,进行智能化搭配组合,直接一次性用中文推荐出满满一周的三餐食谱。



全文OCR能力方面,结构化信息提取能力的提升,对于长图长文本的精准识别大有帮助。

例如输入一张包含稠密信息的长文长图,MiniCPM-Llama3-V 2.5 一字不差地识别出了全文。



再给一张要翻阅好几屏的图文复杂交错的长图难图长文本,MiniCPM-Llama3-V 2.5 也能精准给出正确的回答。




再输入一张手机拍摄的火车票,MiniCPM-Llama3-V 2.5 也能准确提取信息,给出无误的"json"格式输出。


最后,面壁是开源社区的热心贡献者,也是受益者。本次 MiniCPM-Llama3-V 2.5 的飞跃表现依托于面壁团队对多模态技术的创新打磨,更离不开 Llama3-8B-Instruct 作为基座模型的性能基础。

感谢世界优秀同行的卓越工作,令我们站在彼此的肩膀上,伸手摘星,指向更高、更璀璨的科学无垠之处。

我们也将持续回报社区,开源更多优秀模型、数据、infra 工具等,将开源开放的星火播撒世界协作创新之苍穹。

➤ MiniCPM-Llama3-V 2.5 开源地址:

https://github.com/OpenBMB/MiniCPM-V

➤ MiniCPM 系列开源地址:

https://github.com/OpenBMB/MiniCPM

➤ Hugging Face 下载地址:

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两名英国人辞去香港终身法院法官职位,这意味着什么?

两名英国人辞去香港终身法院法官职位,这意味着什么?

包明说
2024-06-13 14:45:24
太会玩了!尾盘20cm跳水跌停,把退市悬念留在了最后两个交易日

太会玩了!尾盘20cm跳水跌停,把退市悬念留在了最后两个交易日

惜别的海岸
2024-06-14 17:02:56
彻底闹掰了?美芯片三巨头集体宣布,人民日报:抛弃幻想!

彻底闹掰了?美芯片三巨头集体宣布,人民日报:抛弃幻想!

疯狂小菠萝
2024-06-14 17:17:58
足坛狂欢夜!山东泰山爆大冷门0-0,倒数第1爆发1-0,海港3-0登顶

足坛狂欢夜!山东泰山爆大冷门0-0,倒数第1爆发1-0,海港3-0登顶

侧身凌空斩
2024-06-14 22:12:25
深夜,知名车企声明:已报案!发生了什么?

深夜,知名车企声明:已报案!发生了什么?

每日经济新闻
2024-06-13 00:05:09
外交部:中方欢迎和支持一切有利于实现和平的努力,在瑞士和会问题上立场公平公正公开

外交部:中方欢迎和支持一切有利于实现和平的努力,在瑞士和会问题上立场公平公正公开

环球网资讯
2024-06-14 15:40:11
太意外了,仁爱礁坐滩军舰之所以没有快速解体,居然是它在搞鬼!

太意外了,仁爱礁坐滩军舰之所以没有快速解体,居然是它在搞鬼!

老妖的针见
2024-06-14 14:20:02
广西超越四川成为第一,艾滋病川渝重灾区,切记不要随便找小姐!

广西超越四川成为第一,艾滋病川渝重灾区,切记不要随便找小姐!

滑稽斑马呀
2024-06-14 15:45:50
1987年,越南国防部长视察中越之间对峙的六省后,果断下令撤军

1987年,越南国防部长视察中越之间对峙的六省后,果断下令撤军

百年历史老号
2024-06-14 22:48:40
已做牺牲准备!央视曝光东部战区激烈对峙, 外机亮导弹被轰6逼退

已做牺牲准备!央视曝光东部战区激烈对峙, 外机亮导弹被轰6逼退

影孖看世界
2024-06-11 20:33:13
俄乌局势升级!梅德韦杰夫将被逮捕?紧张时刻,王毅直飞俄罗斯

俄乌局势升级!梅德韦杰夫将被逮捕?紧张时刻,王毅直飞俄罗斯

壹号评论
2024-06-14 04:50:02
北青:伊万得知出线后难以安眠,但第二天还是应约出席朋友聚会

北青:伊万得知出线后难以安眠,但第二天还是应约出席朋友聚会

直播吧
2024-06-14 18:09:08
泽连斯基拒绝普京

泽连斯基拒绝普京

环球时报新闻
2024-06-14 22:06:50
不出意外的话,中国男篮未来或围绕以下6人重建,早日走出低谷!

不出意外的话,中国男篮未来或围绕以下6人重建,早日走出低谷!

元爸体育
2024-06-14 18:35:53
江宏杰秀刺青,将儿女纹在胸口,发文不怕刺激到福原爱?

江宏杰秀刺青,将儿女纹在胸口,发文不怕刺激到福原爱?

素素娱乐
2024-06-14 07:48:51
公安部:这些情况公安机关将不予立案,这些情况立案后也可撤销!

公安部:这些情况公安机关将不予立案,这些情况立案后也可撤销!

周军律师聊案子
2024-06-13 11:02:09
“艳照门”17年后,她再度翻红,网友:这状态,49岁了?

“艳照门”17年后,她再度翻红,网友:这状态,49岁了?

华人星光
2024-06-14 16:52:24
官宣!足协征集18强主场,需有VAR条件,多地响应,5大城市人气高

官宣!足协征集18强主场,需有VAR条件,多地响应,5大城市人气高

小金体坛大视野
2024-06-14 11:32:03
经济形势有多严峻?3个现象席卷中国各地,预示苦日子已开始?

经济形势有多严峻?3个现象席卷中国各地,预示苦日子已开始?

山丘楼评
2024-06-07 11:45:11
普京表示:不攻击北约、不使用核武并愿意谈判!难道要服软了?

普京表示:不攻击北约、不使用核武并愿意谈判!难道要服软了?

翻开历史和现实
2024-06-13 22:56:43
2024-06-15 00:04:49
硅星人
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
1317文章数 10257关注度
往期回顾 全部

科技要闻

马斯克重获信任 豪言特斯拉市值超10个苹果

头条要闻

媒体:欧盟对华抡贸易大棒后 中方"报复"来得又快又猛

头条要闻

媒体:欧盟对华抡贸易大棒后 中方"报复"来得又快又猛

体育要闻

我们为什么还爱欧洲杯?

娱乐要闻

江宏杰秀儿女刺青,不怕刺激福原爱?

财经要闻

“石油美元”协议走向终结 影响几何?

汽车要闻

提供100/240kW双电机版本车型 乐道L60实车曝光

态度原创

教育
家居
艺术
公开课
军事航空

教育要闻

2024年幼升小电脑派位报名,南京市教育局最新提醒!

家居要闻

空谷来音 朴素留白的侘寂之美

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

公开课

近视只是视力差?小心并发症

军事要闻

美国与乌克兰签署双边安全协议

无障碍浏览 进入关怀版