网易首页 > 网易号 > 正文 申请入驻

苹果最新模型,5年前的iPhone能跑

0
分享至


智东西
编译 程茜
编辑 云鹏

智东西9月1日消息,苹果又公布了大模型研发新进展!

8月28日,苹果在arXiv发布新论文,介绍新一代多模态基础模型MobileCLIP2及其背后的多模态强化训练机制,同天在GitHub、Hugging Face上开源了模型的预训练权重和数据生成代码。

MobileCLIP2专为零样本分类和检索任务设计,推理延迟在3-15毫秒之间,参数规模在50~1.5亿不等。


此前基于Transformer的大型编码器存在较大内存和延迟开销,为在移动设备上部署带来的挑战,基于此,苹果2023年11月发布端侧多模态大模型MobileCLIP,通过多模态强化训练方法改进模型在端侧的部署效果,MobileCLIP2是其改进多模态强化训练方法后的升级版模型。

论文中提到,与上一代模型相比,MobileCLIP2-B在图像分类基准数据集ImageNet-1k上的零样本准确率提高了2.2%。其模型变体MobileCLIP2-S4在iPhone 12 Pro Max上测得的零样本准确率可对标参数规模更大的SigLIP-SO400M/14。

此次其改进的多模特训练训练机制采用了改进的教师监督(Teacher Supervision)与字幕数据(Caption Data)来提升零样本性能。

与此同时,在移动端,该训练机制支持多模态模型直接在移动、边缘设备上部署,实现零样本检索/分类,具有极低的延迟和内存占用。

目前,MobileCLIP2所有模型变体的预训练权重均已公开,开发者可以直接部署和进行基准测试。苹果还发布了数据生成代码,开发者可以基于此使用分布式可扩展处理创建具有任意教师的新强化数据集。

模型的预训练权重链接:

https://github.com/apple/ml-mobileclip

强化训练的数据生成代码链接:

https://github.com/apple/ml-mobileclip-dr

GitHub链接:

https://github.com/apple/ml-mobileclip

Hugging Face链接:

https://huggingface.co/collections/apple/mobileclip2-68ac947dcb035c54bcd20c47

论文地址:

https://arxiv.org/html/2508.20691v1

一、iPhone 12 Pro Max可跑,强调可复现性、可扩展性

MobileCLIP2的核心优势在于实现了相比现有模型参数规模更小、延迟更低,且不牺牲泛化能力、准确性的性能。

在零样本性能方面,MobileCLIP2-S4在iPhone 12 Pro Max上测得的准确率与SigLIP-SO400M/14相当,但参数量为后者的1/2;在延迟方面,MobileCLIPS2-S4的表现优于DFN ViT-L/14,延迟约为后者的约40%。

零样本指标提升可以使模型在未经过特定任务、类别或场景的训练时,无需额外标注数据微调,就能直接将预训练学到的通用知识迁移到未知任务中。


▲图像分类基准数据集ImageNet-1k上的基准测试结果

MobileCLIP2系列模型在不同延迟条件下,38个数据集上平均性能均为最佳。

从下面的测评中看到,MobileCLIP2-S2与SigLIP2-B/32的参数规模差距达到4倍,但性能相当,MobileCLIP2-S4与DFN ViT-L/14相比,推理速度提高2.5倍。


此外,这一多模态训练机制强调可复现性、可扩展性。目前,MobileCLIPS2的所有模型变体的预训练权重均已公开,支持开发者直接部署和进行基准测试。

其强化训练的数据生成代码支持任意教师集成和分布式可扩展处理,便于开发者为进一步研究和快速原型设计定制数据集强化。

在移动端,该训练机制支持直接在移动、边缘设备上部署,实现零样本检索、分类,具有极低的延迟和内存占用;通过开放数据管道和模块化的教师、标题生成器集成,可扩展到新的模态或数据域。

二、整合教师监督模型与字幕数据,提升多模态模型语义覆盖范围

MobileCLIP2的多模态强化训练机制能够将来自多个来源的知识高效地蒸馏到较小的模型中,并基于基础图像-文本对进行操作。

该训练机制整合了教师监督(Teacher Supervision)与字幕数据(Caption Data),旨在训练强鲁棒和高迁移性,同时最大限度降低训练或推理过程中的计算开销。字幕数据指的是与图像、视频等视觉内容关联的文本描述信息。

其核心是通过用DFN预训练的CLIP模型替换先前的集成来改进教师监督模型,为多模态模型训练增加合成字幕,也就是图像、视频等数据的文本描述信息。

具体来看,首先更强的CLIP教师模型指的是,MobileCLIP2通过用DFN预训练的CLIP模型替换先前的集成来改进教师监督,DFN2B-CLIP-ViT-L-14和DFN2B-CLIP-ViT-L-14-s39b的组合构成了教师集成的骨干。

其背后技术细节包括,对每个教师模型独立进行对数尺度(Logits Scale)的精细调整;集成蒸馏在ImageNet-1k验证集上比单教师变体提高了高达2.8%,这证明教师信号聚合对于将强性能压缩到紧凑的学生模型中至关重要;这一精度提升使MobileCLIP2能够以更少的参数数量和延迟,实现与更大参数规模的模型性能相当或超越。

其次,字幕生成教师模型(Captioner Teachers)通过两阶段协议进行升级优化。

第一阶段研究人员在大型DFN-2B数据集上对CoCa风格的描述器进行初始再训练,以提升对图像内容的表达能力。
第二阶段是在高质量标题数据集MSCOCO-123k、MSCOCO-38k上进行后续微调,生成具有增强语义质量和多样性的合成标题。

此外,苹果研究人员的消融研究表明,在精选标题上进行微调可显著提升零样本分类和检索效果。其分析了标题生成的束搜索和采样策略,发现为每张图像生成超过1-2个标题的边际效益不明显,表明策略性多样性优于数量。

这些用于蒸馏训练的合成文本描述,提升了模型的语义覆盖范围,使得MobileCLIP2-B比MobileCLIP-B在ImageNet-1k零样本任务的准确率上提高了2.2%。

结语:苹果改进端侧多模态模型训练机制,降低开发者部署门槛

在苹果发布的论文中提到,MobileCLIP2在多模态模型训练机制上的改进,与参数高效微调、实时设备端推理以及从大型多模态教师库中进行可扩展蒸馏等正在进行的大模型发展趋势高度兼容。

同时,苹果将所有模型变体的预训练权重、数据生成代码开源,也可以帮助开发者加速实验、应用于新任务以及适应不同计算环境。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
亚冠激烈冲突!于汉超飞铲染黄,15人互相推搡,申花遭逆转

亚冠激烈冲突!于汉超飞铲染黄,15人互相推搡,申花遭逆转

奥拜尔
2025-09-16 19:45:53
罗永浩突然认怂,全面放过西贝!跑香港发小作文,华与华老总回应意味深长,以后你会懂的

罗永浩突然认怂,全面放过西贝!跑香港发小作文,华与华老总回应意味深长,以后你会懂的

大白聊IT
2025-09-16 23:04:55
五十年代杀了多少地主恶霸?难道五六十年代还不如解放前吗?

五十年代杀了多少地主恶霸?难道五六十年代还不如解放前吗?

芳芳历史烩
2025-09-16 17:18:59
中美马德里会谈结束,中方公布的成果里,有两件事让人没有想到

中美马德里会谈结束,中方公布的成果里,有两件事让人没有想到

博览历史
2025-09-16 20:38:26
重理工黑人留学生住女寝楼后续:校最高层介入,爆料女生公开道歉

重理工黑人留学生住女寝楼后续:校最高层介入,爆料女生公开道歉

奇思妙想草叶君
2025-09-16 21:36:54
潜力新星,刘维伟:我已经将李俊贤作为第二个杨瀚森来培养

潜力新星,刘维伟:我已经将李俊贤作为第二个杨瀚森来培养

懂球帝
2025-09-16 12:08:09
燃油车主请注意!10月1日车船税新政来袭,你的用车成本要变了

燃油车主请注意!10月1日车船税新政来袭,你的用车成本要变了

慧眼看世界哈哈
2025-09-17 05:19:02
10年6000万咨询费!“制造大冤种”的华与华,到底什么来头?

10年6000万咨询费!“制造大冤种”的华与华,到底什么来头?

金融八卦女
2025-09-16 13:41:04
罗永浩IP地址显示香港,嘴里说着纯预防,身体还是很诚实的,跑路

罗永浩IP地址显示香港,嘴里说着纯预防,身体还是很诚实的,跑路

蜜桔娱乐
2025-09-16 16:23:10
女子散步误踩“化骨水”去世,记者调查:氢氟酸溶液可直接网购

女子散步误踩“化骨水”去世,记者调查:氢氟酸溶液可直接网购

极目新闻
2025-09-16 11:07:17
真的是要动手了,现在信号真的是越来越明确了!东部战区已经

真的是要动手了,现在信号真的是越来越明确了!东部战区已经

岁月有情1314
2025-09-17 01:05:44
谁能认出这是全红婵?长相+身材都变了,网友:不可能回到过去了

谁能认出这是全红婵?长相+身材都变了,网友:不可能回到过去了

念洲
2025-09-17 06:56:45
“种族灭绝行为”实锤 以色列会被逐出联合国吗?

“种族灭绝行为”实锤 以色列会被逐出联合国吗?

看看新闻Knews
2025-09-16 23:40:03
陈珉任县长,曾在厦门挂职

陈珉任县长,曾在厦门挂职

鲁中晨报
2025-09-17 07:15:10
1-2!中国金花痛失好局:决胜盘4-0领先遭逆转 王欣瑜1-2也被翻盘

1-2!中国金花痛失好局:决胜盘4-0领先遭逆转 王欣瑜1-2也被翻盘

侃球熊弟
2025-09-16 19:15:42
罗永浩声明:决定和西贝和解!但是他结尾说的一句话,让网友后怕

罗永浩声明:决定和西贝和解!但是他结尾说的一句话,让网友后怕

晴晴的娱乐日记
2025-09-15 22:22:29
美国驻武汉总领事馆现招聘警卫一名工资:RMB110,270

美国驻武汉总领事馆现招聘警卫一名工资:RMB110,270

创作者_cLg1
2025-09-16 15:42:57
雷军彻底不装了!小米16突然改名小米17,把网友直接看傻了!

雷军彻底不装了!小米16突然改名小米17,把网友直接看傻了!

乌娱子酱
2025-09-16 10:46:33
很多人不知道,手机自带定位功能,只要输入手机号,就知道对方在哪了!

很多人不知道,手机自带定位功能,只要输入手机号,就知道对方在哪了!

CG说科技
2025-09-16 15:54:06
被人民日报捧上“神坛”的于东来,因力挺西贝,才3天就跌下神坛

被人民日报捧上“神坛”的于东来,因力挺西贝,才3天就跌下神坛

花心电影
2025-09-16 08:28:12
2025-09-17 08:27:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10476文章数 116856关注度
往期回顾 全部

科技要闻

2025款Apple Watch全系怎么选?

头条要闻

以色列被认定为"种族灭绝" 多国寻求将其逐出联合国

头条要闻

以色列被认定为"种族灭绝" 多国寻求将其逐出联合国

体育要闻

2022:勇士归来,库里的第四个冠军

娱乐要闻

李小璐母亲:女儿嫁给贾乃亮我好后悔

财经要闻

扩大服务消费 9部门提出5方面19条举措

汽车要闻

智能体豪华旅行车 享界S9T30.98万元起售

态度原创

数码
时尚
家居
公开课
军事航空

数码要闻

2025款Apple Watch全系怎么选?SE3成最大黑马​!

纽约时装周:美+好穿,不可错过的4大趋势

家居要闻

江南秘境 理想生活模样

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

歼-20战机首次进行静态展示

无障碍浏览 进入关怀版