网易首页 > 网易号 > 正文 申请入驻

一夜掀翻 GPT-4V 的国产「小钢炮」,可能会是华为小米们对抗 AI iPhone 的关键武器

0
分享至

把大模型塞进手机里需要几步?

如果说 2023 年是生成式 AI 爆发的元年,那么各路厂商今年难得一见地达成了共识——全力押注端侧大模型。

作为一家专攻「高效大模型」的 AI 新秀,今天面壁智能再秀肌肉,推出了最强端侧多模态开源模型 MiniCPM-Llama3-V 2.5。

最强端侧多模态综合性能:超越多模态巨无霸 Gemini Pro、GPT-4V

OCR 能力 SOTA!9 倍像素更清晰,难图长图长文本精准识别

图像编码快 150 倍!首次端侧系统级多模态加速


国产「小钢炮」第三弹来了,力压 GPT-4V

正如人类依赖五感探索世界,多模态能力是 AI 进化路上的必修课。

仅凭 8B 量级的端侧模型,「以小博大」的 MiniCPM-Llama3-V 2.5 在评测平台 OpenCompass 得分 65.1,不仅比肩闭源模型 Qwen-VL-Max,综合性能还力压重量级选手 GPT-4V 和 Gemini Pro。


在 OCR (光学字符识别)这一综合基准测试中,MiniCPM-Llama3-V 2.5 取得了 725 分的成绩,大幅度远超 GPT-4V,成为超越了Claude 3V Opus 等越级模型。

幻觉能力是短时间内萦绕在大模型心头上最大的顽疾,MiniCPM-Llama3-V 2.5 在这一问题上也有所改进。

反映到 Object HalBench 的基准测试中,其幻觉率从 MiniCPM-V 2.0(2B) 的 14.5 锐减至 10.3,再次超越 GPT-4 V和 LLaVA-NeXT-34B。


RealWorldQA 基准测试是一场检验模型现实理解力的大考。

MiniCPM-Llama3-V 2.5 交出了 63.5 的答卷,仅次于 InternVL-Chat-V1.5 (26B),却依旧让 GPT-4V 和 Gemini Pro 甘拜下风。

依托于面壁自研高清图像高效编码技术,MiniCPM-Llama3-V 2.5 支持高效编码及无损识别 180 万高清像素图片,并且支持任意长宽比,即便是 1:9 的极限比例图像,对它来说,也只是小菜一碟。


「能看」只是开始,更重要的是要懂得「思考」,MiniCPM-Llama3-V 2.5 在复杂推理能力更上一层楼。


官方举例称,给出一张刻满《三体》名言的艺术建筑,一般大模型大致只能描述出图像的模型,而 MiniCPM-Llama3-V 2.5 却可以根据识别到的信息联想到《三体》书籍。


MiniCPM-Llama3-V 2.5


GPT-4V

同时还能给出自己的见解——这些建筑很可能是为了纪念这部小说及其对中国科幻文学的贡献而设计的。

又或者甩给它一张英文版的亚洲饮食金字塔, 它能秒变私人营养师,定制一周菜谱。


懒得阅读长文,交给 MiniCPM-Llama3-V 2.5 吧,然后询问问题,它能以最快的速度给出答案。

现在,MiniCPM-Llama3-V 2.5 支持 30+ 种语言,涵盖德语、法语、西班牙语、意大利语、俄语等主流语言,一带一路沿线国家的语言基本做到信手拈来。


需要说明的是,MiniCPM-Llama3-V 2.5 实则是基于开源模型 Llama3-8B-Instruct 之上的精调模型。

以往想要让 AI 同时处理图像和文字这类不同的信息,而且速度还得快,是个大难题,但是面壁智能采用了 NPU 加速框架,专用于加速处理图像,让 AI 在手机上工作的效率大大提升。

据官方介绍,面壁只能首次进行端侧系统加速,目前 MiniCPM-Llama3-V 2.5 已高效部署手机,并且在图像编码上实现了 150 倍的加速提升。


举例来说,Llama 3 语言模型在手机端侧的解码速度在 0.5 token/s 上下,而多模态模型 MiniCPM-Llama3-V 2.5 经过 CPU 等多重优化方式,使得在手机端的语言解码速度提升到 3-4 token/s。

附上 MiniCPM-Llama3-V 2.5 开源地址:

https://github.com/OpenBMB/MiniCPM-V

端侧模型,手机厂商的必争之地

近两年来,端侧模型在各大终端厂商的演讲 PPT 上频频露脸。

所谓端侧模型是那些在终端设备上运行的人工智能模型。这些模型通常被设计得足够轻量,以适应终端设备的计算能力和资源限制。

「AI 教父」Geoffrey Hinton 就曾指出:「我认为将会有一个阶段,我们在大算力计算机上进行训练,一旦模型训练好了,可以在低功耗设备上进行运行。」

端侧模型的特点正是能够在设备端(如智能手机、嵌入式系统等)上运行,处理数据并做出决策,而不需要将数据发送到远程服务器。

将上面这些话掰开来看,我们就能从中发现端侧模型的优点:

本地运行:模型在设备端本地运行,不需要依赖远程服务器。

实时处理:能够在设备上实时处理数据,提供快速响应。

低延迟:由于数据不需要在设备和服务器之间传输,因此具有较低的延迟。

隐私保护:数据在本地处理,减少了数据泄露的风险,增强了隐私保护。

网络独立性:即使在没有网络连接的情况下,端侧模型也能正常工作。

资源优化:端侧模型通常需要优化以适应终端设备的有限计算资源和存储空间。

适用于多种设备:端侧模型可以部署在各种类型的终端设备上,包括但不限于智能手机、智能家居设备、可穿戴设备等。

小型化和优化:模型可能需要经过压缩、剪枝、量化等技术处理,以减小模型大小和提高运行效率。

当然,端侧大模型和云端大模型是协同,而非站在对立面的产物。

所以我们看到,在诸如 Llama 3、Claude 等大模型发展得如火如荼的同时,端侧模型的研究也没有落下。

英伟达科学家 JImFan 指出,最新的 GPT-4o 极有可能就是一个经过蒸馏的小模型,好处也显而易见——更加精炼,更加高效。

而无论是上个月微软发布的 Phi-3,亦或者面壁智能发布的性能小钢炮系列,又或者苹果最近宣布开源的 OpenELM 系列模型,也都在不断推出新的小尺寸模型。


2024 年是 AI 落地应用的关键元年,端侧模型也正蓄势待发,准备在这一年里大放异彩。

一个不争的事实是,当下大部分的终端创新已然陷入瓶颈期。以「长在」我们身体上的手机为例,当年乔布斯掏出的 iPhone 时的惊艳与革新感早已消逝在时间的长河里。

AI 驱动终端创新的命题,别管是噱头大于实际,还是拿着未来的技术给当下「贴金」,实际上都能为诸如手机这类的设备进一步释放想象力,成为破局的关键点。


正是在此趋势下,端侧模型不再是仅仅停留在理论探讨或厂商宣传册上的概念,它开始逐步渗透到我们的日常生活中。

在去年 8 月份的 HamonyOS 4 发布会上,余承东宣布智慧助手小艺接入 AI 大模型的能力。紧接着,雷军透露小米已经在手机上跑通了 1.3B 参数的大模型,部分场景效果可媲美云端。

国内手机的「御五家」一个也没落下。基于 AndersGPT 的 OPPO 小布助手,搭载 7B 端侧 AI 大模型的荣耀 Magic 6、搭载蓝心大模型矩阵的 vivo 也陆续官宣。

包括今天凌晨,彭博社记者 Mark Gurman 爆料称,苹果将改进 Siri 的语音功能,使其更具对话感,并增加帮助用户处理日常生活的功能,包括:

自动总结 iPhone 的通知

总结新闻文章

转录语音备忘录

改进自动填充日历、推荐应用程序的现有功能

AI 编辑照片

至于最核心的语音助手 Siri,未来则很可能与 OpenAI 或 Gemini 的端侧模型紧密相连。

虽然当下大火的 AI 硬件 Rabbit R1 被质疑是套壳 Android ,但它在发布会上所展示的,也是 AI 手机的理想状态的侧写——一个应用间壁垒全无、流畅交互的系统。


只不过,这样的情况并非一蹴而就,若 AI 语音助手真能如愿以偿地理解用户、调度应用,它不仅将彻底颠覆用户体验,同时也有望改变手机厂商与第三方应用开发者之间的关系网。

例如,此前就有消息传出,一向封闭的苹果面对这场技术变革的洪流,也开始选择主动拥抱开放。

据 Melius Research 的 Ben Reitzes 透露,苹果有望在即将召开的 WWDC上 推出一个专门针对 AI 应用的商店。这不仅是苹果开放策略的一个重要转折点,更是其在 AI 时代战略转型的明确信号。

这也表明苹果正试图通过构建一个开放的 AI 生态系统,为开发者和用户创造更多价值,同时也为自己赢得更广阔的市场空间。

言归正传,MiniCPM-Llama3-V 2.5 之类的端侧模型用实力证明了——模型不是只有「参数越大才能性能越好」,而是可以用最小参数撬动最强性能!

与此同时,步入生活只是第一步,当数据的旅程缩短至零,端侧模型让 AI 的反应比人类的思维更快一步,或许才能说明终端设备的下一个春天真的来临了。

到那时,用户与终端产品的每一次交互,都将引发一阵不由自主的「哇」声赞叹。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
腾讯有没有被肢解的可能?网友:飞信当年是QQ的最大威胁,决定收费后把自己搞死

腾讯有没有被肢解的可能?网友:飞信当年是QQ的最大威胁,决定收费后把自己搞死

老郭在学习
2024-06-16 23:58:26
42岁凯特王妃灿烂笑容重现!瘦成“纸片人”,比9岁夏洛特还要薄

42岁凯特王妃灿烂笑容重现!瘦成“纸片人”,比9岁夏洛特还要薄

译言
2024-06-15 18:51:40
变天了?英国《经济学人》头条:中国已成为科学的超级大国

变天了?英国《经济学人》头条:中国已成为科学的超级大国

互联网大聪明
2024-06-16 03:04:28
历史会记住这一天

历史会记住这一天

西楼饮月
2024-06-16 20:49:06
王思聪21岁新女友出手了,晒两人甜蜜合影,发声力挺王思聪!

王思聪21岁新女友出手了,晒两人甜蜜合影,发声力挺王思聪!

古希腊掌管月桂的神
2024-06-16 18:11:18
为什么今年中国经济这么差?

为什么今年中国经济这么差?

趣说世界哈
2024-06-16 07:50:23
带着家庭作业踢欧洲杯 西班牙16岁天才亚马尔首秀错失进球

带着家庭作业踢欧洲杯 西班牙16岁天才亚马尔首秀错失进球

封面新闻
2024-06-16 07:10:19
港媒:美军核潜艇并不是“撞山”,而是被解放军发现后“伏击”!

港媒:美军核潜艇并不是“撞山”,而是被解放军发现后“伏击”!

黑天鹅洞察
2024-06-14 11:51:11
医大教师因抢救患儿迟到被罚后续:举报者身份被扒,校方二次回应

医大教师因抢救患儿迟到被罚后续:举报者身份被扒,校方二次回应

洛洛女巫
2024-06-16 13:41:45
动物交配六亲不认,若雄性遇上自己母亲呢?马不欺母是真的吗?

动物交配六亲不认,若雄性遇上自己母亲呢?马不欺母是真的吗?

答案在这儿
2024-06-16 00:02:21
土地卖不动以后,为了保障体制内的工资,许多地方开始“大甩卖”

土地卖不动以后,为了保障体制内的工资,许多地方开始“大甩卖”

庞明说财经
2024-06-16 17:00:58
牵涉“女首富”案,又一位越共中央高层受处分

牵涉“女首富”案,又一位越共中央高层受处分

中国新闻周刊
2024-06-16 15:09:59
人民日报:忙起来,就没那么多迷茫了,只要不懈怠,日子就有奔头

人民日报:忙起来,就没那么多迷茫了,只要不懈怠,日子就有奔头

十三级台阶
2024-06-15 19:29:05
北京高考阅卷现场:语文已出现优秀作文,将作为满分作文备选

北京高考阅卷现场:语文已出现优秀作文,将作为满分作文备选

澎湃新闻
2024-06-16 21:16:28
甘肃天水烟草局“夜袭”造假,监控曝光“起早贪黑”式伪造证据

甘肃天水烟草局“夜袭”造假,监控曝光“起早贪黑”式伪造证据

新动察
2024-06-16 11:36:42
打断妻子多根肋骨,上市公司创始人被公诉!

打断妻子多根肋骨,上市公司创始人被公诉!

中国基金报
2024-06-16 00:09:20
姜萍圆梦大学不止职教高考,江苏教育主管部门回应

姜萍圆梦大学不止职教高考,江苏教育主管部门回应

齐鲁壹点
2024-06-16 14:58:15
网传:焚烧电动车现场,黑烟滚滚,网友纳闷,专家学者集体沉默!

网传:焚烧电动车现场,黑烟滚滚,网友纳闷,专家学者集体沉默!

眼光很亮
2024-06-16 08:01:14
太突然了!山东菏泽曹县翰林府长达7分29秒视频,为何引发热搜?

太突然了!山东菏泽曹县翰林府长达7分29秒视频,为何引发热搜?

火山诗话
2024-06-16 16:42:18
男子在军民合用机场发现外国乘客手机偷拍,怀疑是间谍,机场回应

男子在军民合用机场发现外国乘客手机偷拍,怀疑是间谍,机场回应

看晓天下事
2024-06-16 14:56:16
2024-06-17 01:56:49
AppSo
AppSo
让智能手机更好用的秘密
4506文章数 26419关注度
往期回顾 全部

科技要闻

iPhone 16会杀死大模型APP吗?

头条要闻

南方医院回应教师因救人迟到:教学差错是最轻档处理

头条要闻

南方医院回应教师因救人迟到:教学差错是最轻档处理

体育要闻

没人永远年轻 但青春如此无敌还是离谱了些

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

打断妻子多根肋骨 上市公司创始人被公诉

汽车要闻

售17.68万-21.68万元 极狐阿尔法S5正式上市

态度原创

旅游
时尚
健康
房产
家居

旅游要闻

@毕业生,江苏这些景区可享免票或优惠

伊姐周日热推:电影《沙漏》;动漫《眷思量2》......

晚餐不吃or吃七分饱,哪种更减肥?

房产要闻

万华对面!海口今年首宗超百亩宅地,重磅挂出!

家居要闻

空谷来音 朴素留白的侘寂之美

无障碍浏览 进入关怀版