网易首页 > 网易号 > 正文 申请入驻

一夜掀翻 GPT-4V 的国产「小钢炮」,可能会是华为小米们对抗 AI iPhone 的关键武器

0
分享至

把大模型塞进手机里需要几步?

如果说 2023 年是生成式 AI 爆发的元年,那么各路厂商今年难得一见地达成了共识——全力押注端侧大模型。

作为一家专攻「高效大模型」的 AI 新秀,今天面壁智能再秀肌肉,推出了最强端侧多模态开源模型 MiniCPM-Llama3-V 2.5。

  • 最强端侧多模态综合性能:超越多模态巨无霸 Gemini Pro、GPT-4V
  • OCR 能力 SOTA!9 倍像素更清晰,难图长图长文本精准识别
  • 图像编码快 150 倍!首次端侧系统级多模态加速


国产「小钢炮」第三弹来了,力压 GPT-4V

正如人类依赖五感探索世界,多模态能力是 AI 进化路上的必修课。

仅凭 8B 量级的端侧模型,「以小博大」的 MiniCPM-Llama3-V 2.5 在评测平台 OpenCompass 得分 65.1,不仅比肩闭源模型 Qwen-VL-Max,综合性能还力压重量级选手 GPT-4V 和 Gemini Pro。


在 OCR (光学字符识别)这一综合基准测试中,MiniCPM-Llama3-V 2.5 取得了 725 分的成绩,大幅度远超 GPT-4V,成为超越了Claude 3V Opus 等越级模型。

幻觉能力是短时间内萦绕在大模型心头上最大的顽疾,MiniCPM-Llama3-V 2.5 在这一问题上也有所改进,

反映到 Object HalBench 的基准测试中,其幻觉率从 MiniCPM-V 2.0(2B) 的 14.5 锐减至 10.3,再次超越 GPT-4 V和 LLaVA-NeXT-34B。


RealWorldQA 基准测试是一场检验模型现实理解力的大考。

MiniCPM-Llama3-V 2.5 交出了 63.5 的答卷,仅次于 InternVL-Chat-V1.5 (26B),却依旧让 GPT-4V 和 Gemini Pro 甘拜下风。

依托于面壁自研高清图像高效编码技术,MiniCPM-Llama3-V 2.5 支持高效编码及无损识别 180 万高清像素图片,并且支持任意长宽比、即便是 1:9 的极限比例图像,对它来说,也只是小菜一碟。


「能看」只是开始,更重要的是要懂得「思考」,MiniCPM-Llama3-V 2.5 在复杂推理能力更上一层楼。


官方举例称,给出一张刻满《三体》名言的艺术建筑,一般大模型大致只能描述出图像的模型,而 MiniCPM-Llama3-V 2.5 却可以根据识别到的信息联想到《三体》书籍。


▲MiniCPM-Llama3-V 2.5


▲ GPt-4V

同时还能给出自己的见解——这些建筑很可能是为了纪念这部小说及其对中国科幻文学的贡献而设计的。

又或者甩给它一张英文版的亚洲饮食金字塔, 它能秒变私人营养师,定制一周菜谱。


懒得阅读长文,交给 MiniCPM-Llama3-V 2.5 吧,然后询问问题,它能以最快的速度给出答案。

现在,MiniCPM-Llama3-V 2.5 支持 30+ 种语言,涵盖德语、法语、西班牙语、意大利语、俄语等主流语言,一带一路沿线国家的语言基本做到信手拈来。


需要说明的是,MiniCPM-Llama3-V 2.5 实则是基于开源模型 Llama3-8B-Instruct 之上的精调模型。

以往想要让 AI 同时处理图像和文字这类不同的信息,而且速度还得快,是个大难题,但是面壁智能采用了 NPU 加速框架,专用于加速处理图像,让 AI 在手机上工作的效率大大提升。

据官方介绍,面壁只能首次进行端侧系统加速,目前 MiniCPM-Llama3-V 2.5 已高效部署手机,并且在图像编码上实现了 150 倍的加速提升。


举例来说,Llama 3 语言模型在手机端侧的解码速度在 0.5 token/s 上下,而多模态模型 MiniCPM-Llama3-V 2.5 经过 CPU 等多重优化方式,使得在手机端的语言解码速度提升到 3-4 token/s。

附上 MiniCPM-Llama3-V 2.5 开源地址:
https://github.com/OpenBMB/MiniCPM-V

端侧模型,手机厂商的必争之地

近两年来,端侧模型在各大终端厂商的演讲 PPT 上频频露脸。

所谓端侧模型是那些在终端设备上运行的人工智能模型。这些模型通常被设计得足够轻量,以适应终端设备的计算能力和资源限制。

在 GPT-4 上线之后,「AI 教父」Geoffrey Hinton 就曾指出,我认为将会有一个阶段,我们在大算力计算机上进行训练,一旦模型训练好了,可以在低功耗设备上进行运行。

端侧模型的特点能够在设备端(如智能手机、嵌入式系统等)上运行,处理数据并做出决策,而不需要将数据发送到远程服务器。

将上面这些话掰开来看,我们就能从中发现端侧模型的优点:

  • 本地运行:模型在设备端本地运行,不需要依赖远程服务器。
  • 实时处理:能够在设备上实时处理数据,提供快速响应。
  • 低延迟:由于数据不需要在设备和服务器之间传输,因此具有较低的延迟。
  • 隐私保护:数据在本地处理,减少了数据泄露的风险,增强了隐私保护。
  • 网络独立性:即使在没有网络连接的情况下,端侧模型也能正常工作。
  • 资源优化:端侧模型通常需要优化以适应终端设备的有限计算资源和存储空间。
  • 适用于多种设备:端侧模型可以部署在各种类型的终端设备上,包括但不限于智能手机、智能家居设备、可穿戴设备等。
  • 小型化和优化:模型可能需要经过压缩、剪枝、量化等技术处理,以减小模型大小和提高运行效率。

当然,端侧大模型和云端大模型是协同,而非站在对立面的产物。

所以我们看到,在诸如 Llama 3、Claude 等大模型发展得如火如荼的同时,端侧模型的研究也没有落下。

英伟达科学家 JImFan 指出,最新的 GPT-4o 极有可能就是一个经过蒸馏的小模型,好处也显而易见——更加精炼,更加高效。

而无论是上个月微软发布的 Phi-3,亦或者面壁智能发布的性能小钢炮系列,又或者苹果最近宣布开源的 OpenELM 系列模型,也都在不断推出新的小尺寸模型。


2024 年是 AI 落地应用的关键元年,端侧模型也正蓄势待发,准备在这一年里大放异彩。

一个不争的事实是,当下大部分的终端创新已然陷入瓶颈期。以「长在」我们身体上的手机为例,当年乔布斯掏出的 iPhone 时的惊艳与革新感早已消逝在时间的长河里。

AI 驱动终端创新的命题,别管是噱头大于实际,还是拿着未来的技术给当下「贴金」,实际上都能为诸如手机这类的设备进一步释放想象力,成为破局的关键点。


正是在此趋势下,端侧模型不再是仅仅停留在理论探讨或厂商宣传册上的概念,它开始逐步渗透到我们的日常生活中。

在去年 8 月份的 HamonyOS 4 发布会上,余承东宣布智慧助手小艺接入 AI 大模型的能力。紧接着,雷军透露小米已经在手机上跑通了 1.3B 参数的大模型,部分场景效果可媲美云端。

国内手机的「御五家」一个也没落下。基于 AndersGPT 的 OPPO 小布助手,搭载 7B 端侧 AI 大模型的荣耀 Magic 6、搭载蓝心大模型矩阵的 vivo 也陆续官宣。

包括今天凌晨,彭博社记者 Mark Gurman 爆料称,苹果将改进 Siri 的语音功能,使其更具对话感,并增加帮助用户处理日常生活的功能,包括:

  • 自动总结 iPhone 的通知
  • 总结新闻文章
  • 转录语音备忘录
  • 改进自动填充日历、推荐应用程序的现有功能
  • AI 编辑照片

至于最核心的语音助手 Siri,未来则很可能与 OpenAI 或 Gemini 的端侧模型紧密相连。

虽然当下大火的 AI 硬件 Rabbit R1 被质疑是套壳 Android ,但它在发布会上所展示的,也是 AI 手机的理想状态的侧写——一个应用间壁垒全无、流畅交互的系统。


只不过,这样的情况并非一蹴而就,若 AI 语音助手真能如愿以偿地理解用户、调度应用,它不仅将彻底颠覆用户体验,同时也有望改变手机厂商与第三方应用开发者之间的关系网。

例如,此前就有消息传出,一向封闭的苹果面对这场技术变革的洪流,也开始选择主动拥抱开放。

据 Melius Research 的 Ben Reitzes 透露,苹果有望在即将召开的 WWDC上 推出一个专门针对 AI 应用的商店。这不仅是苹果开放策略的一个重要转折点,更是其在 AI 时代战略转型的明确信号。

这也表明苹果正试图通过构建一个开放的 AI 生态系统,为开发者和用户创造更多价值,同时也为自己赢得更广阔的市场空间。

言归正传,MiniCPM-Llama3-V 2.5 之类的端侧模型用实力证明了——模型不是只有「参数越大才能性能越好」,而是可以用最小参数撬动最强性能!

与此同时,步入生活只是第一步,当数据的旅程缩短至零,端侧模型让 AI 的反应比人类的思维更快一步,或许才能说明终端设备的下一个春天真的来临了。

到那时,用户与终端产品的每一次交互,都将引发一阵不由自主的「哇」声赞叹。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发跳水!大跌25%

突发跳水!大跌25%

中国基金报
2024-06-03 11:01:23
两个大事!开始明抢中国资产了

两个大事!开始明抢中国资产了

大猫财经Pro
2024-06-03 18:23:52
连总部都5折卖了,还有什么能拯救万科?

连总部都5折卖了,还有什么能拯救万科?

市界
2024-06-03 14:34:11
皇马官宣倒计时!曝姆巴佩获1500万欧年薪,亮相仪式将破C罗纪录

皇马官宣倒计时!曝姆巴佩获1500万欧年薪,亮相仪式将破C罗纪录

我爱英超
2024-06-03 16:22:43
45国代表面前,董军防长对台军的称呼变了,最后送给他们8个字

45国代表面前,董军防长对台军的称呼变了,最后送给他们8个字

刘庆彬
2024-06-03 11:37:57
美国务院:联合国第2758号决议不支持中国大陆对台湾的主权主张

美国务院:联合国第2758号决议不支持中国大陆对台湾的主权主张

二号院观点
2024-06-03 15:00:02
广东原省委副书记判“死缓”,家中搜出十几车现金与黄金,曾向周永康递效忠信

广东原省委副书记判“死缓”,家中搜出十几车现金与黄金,曾向周永康递效忠信

天闻地知
2024-06-03 14:48:57
36岁,社区打电话催生三胎,我答:没空生,对方一句话差点气死我

36岁,社区打电话催生三胎,我答:没空生,对方一句话差点气死我

婉秋聊育儿
2024-06-03 11:16:04
网传4人攀登洛日依甲山遇难?记者求证:消防正救援,发现1人初步判断已遇难

网传4人攀登洛日依甲山遇难?记者求证:消防正救援,发现1人初步判断已遇难

红星新闻
2024-06-03 18:39:07
公安部:严厉打击整治“换钱党”及相关违法犯罪

公安部:严厉打击整治“换钱党”及相关违法犯罪

中国日报网
2024-06-03 15:25:02
故乡的情,故乡的海

故乡的情,故乡的海

娱乐小可爱蛙
2024-06-03 12:00:51
女教师“幼态字体”引发教育热议:字如其人,教育该何去何从?

女教师“幼态字体”引发教育热议:字如其人,教育该何去何从?

鬼谷子思维
2024-06-03 14:08:31
“官场小说家”杨克宁被决定逮捕!

“官场小说家”杨克宁被决定逮捕!

正义网
2024-06-03 15:01:04
“此书违背一个中国原则”

“此书违背一个中国原则”

观察者网
2024-06-03 09:49:49
美急忙澄清!胡赛攻击美航母,开创世界先例,解放军或受启发

美急忙澄清!胡赛攻击美航母,开创世界先例,解放军或受启发

王子看台海
2024-06-02 17:39:50
没底线!漫展模仿科比遇难现场,球迷出离愤怒,Cos圈却不知悔改

没底线!漫展模仿科比遇难现场,球迷出离愤怒,Cos圈却不知悔改

末位侃球
2024-06-03 09:12:25
郭德纲对木偶恭敬换衣,网友:封建迷信,从业者:这是祖宗!

郭德纲对木偶恭敬换衣,网友:封建迷信,从业者:这是祖宗!

蜜桔娱乐
2024-06-03 10:24:55
“铁头”涂鸦靖国神社后,在日华人第一时间报警,称警察很感谢我

“铁头”涂鸦靖国神社后,在日华人第一时间报警,称警察很感谢我

不掉线电波
2024-06-03 09:40:43
女富豪邓文迪带着长女参加默多克婚礼!穿紫色印花裙,尽显东方美

女富豪邓文迪带着长女参加默多克婚礼!穿紫色印花裙,尽显东方美

八八尚语
2024-06-03 10:39:59
徐辉少将喊话泽连斯基:到底在为什么而战?

徐辉少将喊话泽连斯基:到底在为什么而战?

观察者网
2024-06-03 07:48:06
2024-06-03 19:32:49
爱范儿
爱范儿
消费科技第一媒体
36141文章数 2579500关注度
往期回顾 全部

科技要闻

特斯拉回应单踏板模式可能被禁止:暂无影响

头条要闻

美国放宽限制后 乌克兰首次使用"海马斯"袭击俄本土

头条要闻

美国放宽限制后 乌克兰首次使用"海马斯"袭击俄本土

体育要闻

万人空巷!皇马举行欧冠夺冠庆典

娱乐要闻

混战升级!编剧赵冬苓力挺王阳遭围攻

财经要闻

接班100天,宗馥莉急了

汽车要闻

搭载华为HiCAR 传祺M6 MAX售14.58万元

态度原创

教育
健康
手机
家居
公开课

教育要闻

又到高考季!祝福张桂梅校长生日快乐,身体健康,平安顺遂

晚餐不吃or吃七分饱,哪种更减肥?

手机要闻

小米Redmi 13 4G在海外推出!联发科芯片+1亿主摄

家居要闻

静谧极简 让空间回归本质

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版