网易首页 > 网易号 > 正文 申请入驻

国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座

0
分享至


新智元报道

编辑:桃子 好困

【新智元导读】杀疯了!一夜之间,全球最强端侧多模态模型再次刷新,仅用8B参数,击败了多模态巨无霸Gemini Pro、GPT-4V。而且,其OCR长难图识别刷新SOTA,图像编码速度暴涨150倍。这是国产头部大模型公司献给开发者们最浪漫的520礼物。

拳打GPT-4V,脚踢Gemini Pro,仅仅8B参数就能击败多模态大模型王者。

今天,这个全球最强端侧多模态模型彻底「杀疯了」!


众所周知,端侧模型是AI发展的大趋势——从微软、谷歌再到苹果和英特尔,全球科技巨头都在争抢在PC和手机等端侧场景的AI落地。

但万万没想到的是,端侧模型的性能竟然可以这么猛,进化速度竟然可以这么快!

更令人惊喜的是,它不是来自国外大厂,而是出自国内大模型研发实力最头部的公司面壁智能——他们最新打造了面壁小钢炮MiniCPM-Llama3-V 2.5

而且,选择在今天520这个特殊的日子推出,据说是送给开源社区的情人节礼物,简直浪漫的不像个科技公司~


MiniCPM-Llama3-V 2.5开源地址:

https://github.com/OpenBMB/MiniCPM-V

MiniCPM系列开源地址:

https://github.com/OpenBMB/MiniCPM

Hugging Face下载地址:

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

那么这个小钢炮究竟有多强?何以能担当得起全球最强端侧多模态模型的称号?

总结来讲,MiniCPM-Llama3-V 2.5不仅支持30+多种语言而且还具备:

  • 最强端侧多模态综合性能:超越多模态巨无霸Gemini Pro、GPT-4V;

  • OCR能力SOTA!9倍像素更清晰,难图长图长文本精准识别;

  • 图像编码快150倍!首次端侧系统级多模态加速。


下面这张图反映了在全球范围内,小参数、高性能的多模态大模型已经成为趋势;

而其中最亮眼的一颗星正是面壁小钢炮MiniCPM-Llama3-V 2.5。

MiniCPM-Llama3-V 2.5用实力证明了——模型不是只有「参数越大才能性能越好」,而是可以用最小参数撬动最强性能!


另外随着大模型参数愈益降低、端侧算力愈益增强,高性能端侧模型势头强劲。

而手机、PC等智能终端设备因其高频的影像视觉处理需求,对在端侧部署AI模型提出了更高的多模态识别与推理能力要求。

从面壁「小钢炮」三月三级跳的迅猛进化来看,推动推理成本大幅降低、大模型高效落地,胜利在望。

OCR能力SOTA+最强端侧多模态

8B端侧模型,超越GPT-4V、Gemini Pro

这一次,MiniCPM-Llama3-V 2.5以8B端侧模型参数量级,贡献了惊艳的 OCR(光学字符识别)SOTA成绩,以及端侧模型中的最佳多模态综合成绩与幻觉能力水平。


模型雷达图,MiniCPM-Llama3-V 2.5综合能力水平全面优秀

在综合评测权威平台OpenCompass上,MiniCPM-Llama3-V 2.5以小博大,综合性能超越多模态巨无霸GPT-4V和Gemini Pro。


OCR(光学字符识别)是多模态大模型最重要的能力之一,也是考察多模态识别与推理能力的硬核指标。

新一代MiniCPM-Llama3-V 2.5 在OCR综合能⼒权威榜单OCRBench上,越级超越了Claude 3V Opus、Gemini Pro等标杆模型,实现了性能SOTA。


在评估多模态大模型性能可靠性的重要指标——幻觉能力上,MiniCPM-Llama3-V 2.5在Object HalBench榜单上超越了GPT-4V等众多模型(注:目标幻觉率应为0)。


在评估多模态模型的基本现实世界空间理解能力的RealWorldQA榜单上,MiniCPM-Llama3-V 2.5再次超越GPT-4V和Gemini Pro,这对8B模型而言难能可贵。


快150倍!首次端侧系统级加速

支持30+多语言,拥抱世界开源社区

首次进行端侧系统级加速,MiniCPM-Llama3-V 2.5已高效部署手机。

在图像编码方面,面壁首次整合NPU和CPU加速框架,在MiniCPM-Llama3-V 2.5图像编码方面实现了150倍加速提升。

在语言模型推理方面,目前开源社区的报告结果显示,Llama 3语言模型在手机端侧的解码速度在0.5 token/s上下,相比之下,多模态大模型的端侧运行面临着更大的效率挑战,经过CPU、编译优化、显存管理等优化方式,面壁将 MiniCPM-Llama3-V 2.5在手机端的语言解码速度提升到3-4 token/s。

目前,语言模型的图像编码加速也在进行中,更灵敏互动体验即将到来。


(此处GIF为2倍速演示,面壁正进一步加速优化中)


( 此处GIF为2倍速演示,面壁正进一步加速优化中)

有别于常见的中英双语模型,MiniCPM-Llama3-V2.5可支持30+多种语言,

包括德语、法语、西班牙语、意大利语、俄语等主流语言,基本覆盖一带一路国家。

基于自研的跨语言泛化技术,仅通过少量翻译的多模态数据的指令微调,就可对多语言多模态对话性能高效泛化。

现在,上百个国家的几十亿人口,终于可以自如使用母语和端侧大模型交流,不再游离于前沿科技发展的主线,也因此享有更多AI应用落地、生活品质提升与参与科技角逐的可能性。真正让更多人享受大模型的乐趣!


多语言案例展示(语言加速工作正在进行,此处为2倍速)


多语言版本LLaVABench评测结果,MiniCPM-Llama3-V 2.5对话能力更胜一筹

9倍像素更清晰

难图长图长文本精准识别

OCR技术进一步打磨,复杂推理与多模态识别能力再进化,MiniCPM-Llama3-V 2.5对于难图、长图、长文本的精准识再度带来出众表现!

面壁自研高清图像高效编码技术,可以高效编码及无损识别180万高清像素图片,并且支持任意长宽比、甚至「有点变态」的1:9极限比例图像,突破了传统技术仅能识别20万像素小图的瓶颈。

此前,MiniCPM-V系列多模态模型就因对于街景、长图等困难场景的高效解析,赢得了良好口碑。


技术升级,MiniCPM-Llama3-V 2.5在复杂推理能力上进一步突破。可更好地深入洞察图像,在更复杂、更接近人类的水平上进行思考和解决问题,堪称大模型中的「小福尔摩斯」。

复杂推理能力使得模型不仅能理解单的文本或图像等模态信息,还能跨越不同模态间的综合信息,做出更准确和深入的分析。

比如给定一张充满繁密字迹的建筑风景图,难以人眼辨别,但MiniCPM-Llama3-V 2.5能够一眼看懂其中的《三体》主题,还能正确推理出这些建筑是为了纪念《三体》及其对中国科幻文学的贡献而设计,令人会心一笑。



把同样的问题抛给GPT-4V,结果并不理想。


另外,识别包含复杂逻辑的流程图是多模态模型推理能力的直观体现,MiniCPM-Llama3-V 2.5不仅能够轻松看懂流程图中不同模块的文字、箭头之间的空间位置和复杂逻辑关系,还能给出清晰易懂的解释说明。



给妈妈转发一张亚洲饮食金字塔图,但她读不懂英文?

MiniCPM-Llama3-V 2.5凭借出色的推理能力,不仅深入理解分析图像里的饮食类型和分布,还能洞察背后的营养均衡需求,进行智能化搭配组合,直接一次性用中文推荐出满满一周的三餐食谱。



全文OCR能力方面,结构化信息提取能力的提升,对于长图长文本的精准识别大有帮助。

例如输入一张包含稠密信息的长文长图,MiniCPM-Llama3-V 2.5一字不差地识别出了全文。



再给一张要翻阅好几屏的图文复杂交错的长图难图长文本,MiniCPM-Llama3-V 2.5 也能精准给出正确的回答。




再输入一张手机拍摄的火车票,MiniCPM-Llama3-V 2.5 也能准确提取信息,给出无误的「json」格式输出。


最后,面壁是开源社区的热心贡献者,也是受益者。

本次MiniCPM-Llama3-V 2.5的飞跃表现依托于面壁团队对多模态技术的创新打磨,更离不开Llama3-8B-Instruct作为基座模型的性能基础。

感谢世界优秀同行的卓越工作,令我们站在彼此的肩膀上,伸手摘星,指向更高、更璀璨的科学无垠之处。

我们也将持续回报社区,开源更多优秀模型、数据、infra工具等,将开源开放的星火播撒世界协作创新之苍穹。

参考资料:

MiniCPM-Llama3-V 2.5开源地址:

https://github.com/OpenBMB/MiniCPM-V

MiniCPM系列开源地址:

https://github.com/OpenBMB/MiniCPM

Hugging Face下载地址:

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蔡磊破冰驿站橱窗被封,黄V被摘,段睿紧急道歉称换新号继续直播

蔡磊破冰驿站橱窗被封,黄V被摘,段睿紧急道歉称换新号继续直播

娱圈小愚
2024-06-02 09:26:53
泽连斯基拿出白纸黑字,要中国兑现承诺:30年前就答应保护乌克兰

泽连斯基拿出白纸黑字,要中国兑现承诺:30年前就答应保护乌克兰

国学璀璨
2024-06-02 19:05:42
今年经济为何如此困难?

今年经济为何如此困难?

庞明说财经
2024-06-02 07:15:09
4-2!世界第1爆发,孙颖莎进决赛,淘汰陈梦,一度浪费4个赛点

4-2!世界第1爆发,孙颖莎进决赛,淘汰陈梦,一度浪费4个赛点

足球慢镜头
2024-06-02 21:16:53
记者:中国女排围绕朱婷到底发生什么?蔡斌临场用人出于什么目的

记者:中国女排围绕朱婷到底发生什么?蔡斌临场用人出于什么目的

直播吧
2024-06-02 21:12:17
以总理再发声明:不摧毁哈马斯就不会永久停火

以总理再发声明:不摧毁哈马斯就不会永久停火

界面新闻
2024-06-01 18:09:30
广工2024应届生就业率曝光,计算机不火,土木好差,文科等于白读

广工2024应届生就业率曝光,计算机不火,土木好差,文科等于白读

东东趣谈
2024-06-02 22:12:39
世界波出鞘,84分钟杀死比赛,2-1,上海劲旅绝杀广东劲旅

世界波出鞘,84分钟杀死比赛,2-1,上海劲旅绝杀广东劲旅

侧身凌空斩
2024-06-02 21:36:13
闹大了!河北三家3口被当街杀害,知情人透露是5万块钱惹的祸

闹大了!河北三家3口被当街杀害,知情人透露是5万块钱惹的祸

亦纯杂谈
2024-06-02 13:47:59
浙江男子扇小孩耳光后续:13000和解,双方关系曝光,商家被关门

浙江男子扇小孩耳光后续:13000和解,双方关系曝光,商家被关门

猫小狸同学
2024-06-02 20:05:02
女大学生隐瞒怀胎被错诊肾病死亡:内幕曝光后评论区让人毛骨悚然

女大学生隐瞒怀胎被错诊肾病死亡:内幕曝光后评论区让人毛骨悚然

听风听你
2024-06-01 22:09:50
中国女排VS意大利,赛后蔡斌再遭打击,世联赛收三个坏消息

中国女排VS意大利,赛后蔡斌再遭打击,世联赛收三个坏消息

极度说球
2024-06-02 20:54:12
不准吃冷饮!中医世家执行几十年的家规,让90岁的人看起来像60岁!值得思考

不准吃冷饮!中医世家执行几十年的家规,让90岁的人看起来像60岁!值得思考

北青网-北京青年报
2024-06-01 11:05:04
穆里尼奥:曼联下赛季会有点进步但不多,切尔西我是真不知道

穆里尼奥:曼联下赛季会有点进步但不多,切尔西我是真不知道

懂球帝
2024-06-02 15:21:01
嫦娥六号成功着陆:采2000克月壤,美国又要咋办?4国或率先获得

嫦娥六号成功着陆:采2000克月壤,美国又要咋办?4国或率先获得

环球科学猫
2024-06-02 11:27:00
法媒:中国的态度非常强硬,中国对美国的批评非常严厉

法媒:中国的态度非常强硬,中国对美国的批评非常严厉

杂谈天下式
2024-06-02 00:10:52
逼良为娼,被强迫拍了50部三级片:从车模到女优,她只走错了一步

逼良为娼,被强迫拍了50部三级片:从车模到女优,她只走错了一步

爱过的人去了哪里
2022-06-19 16:40:26
德媒:贝尔伯克或代替冯德莱恩,成新任欧盟委员会主席

德媒:贝尔伯克或代替冯德莱恩,成新任欧盟委员会主席

青木在德国
2024-06-02 21:54:52
多特自作孽不可活:2个丢球都是自身失误!2单刀+3良机,全部挥霍

多特自作孽不可活:2个丢球都是自身失误!2单刀+3良机,全部挥霍

风过乡
2024-06-02 08:13:07
可悲!《东方甄选》画风越演越烈,俞敏洪不得不从,穿不起高档衣

可悲!《东方甄选》画风越演越烈,俞敏洪不得不从,穿不起高档衣

娱乐八卦木木子
2024-06-03 01:55:17
2024-06-03 06:30:44
新智元
新智元
AI产业主平台领航智能+时代
11110文章数 65532关注度
往期回顾 全部

数码要闻

NVIDIA与AMD将为游戏笔记本电脑带来微软Copilot+人工智能功能

头条要闻

女子称穿7cm厚洞洞鞋下楼时崴脚摔倒 左腿粉碎性骨折

头条要闻

女子称穿7cm厚洞洞鞋下楼时崴脚摔倒 左腿粉碎性骨折

体育要闻

从0-1到2-1!石宇奇绝地反击逆转队友李诗沣,豪夺赛季第3冠

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

新造车5月销量: 小鹏乏力 问界暂"缺席"

科技要闻

黄仁勋:2026年将推下代GPU架构平台Rubin

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

家居
教育
手机
本地
公开课

家居要闻

风雅自来 中式的和谐平衡

教育要闻

TTS新传论文带读:中国互联网30年!一篇文章就给整明白!!!

手机要闻

小米14更新澎湃OS1.0.38体验:不吐不快,说说真实感受

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版