网易首页 > 网易号 > 正文 申请入驻

苹果最新模型,5年前的iPhone能跑

0
分享至


智东西
编译 程茜
编辑 云鹏

智东西9月1日消息,苹果又公布了大模型研发新进展!

8月28日,苹果在arXiv发布新论文,介绍新一代多模态基础模型MobileCLIP2及其背后的多模态强化训练机制,同天在GitHub、Hugging Face上开源了模型的预训练权重和数据生成代码。

MobileCLIP2专为零样本分类和检索任务设计,推理延迟在3-15毫秒之间,参数规模在50~1.5亿不等。


此前基于Transformer的大型编码器存在较大内存和延迟开销,为在移动设备上部署带来的挑战,基于此,苹果2023年11月发布端侧多模态大模型MobileCLIP,通过多模态强化训练方法改进模型在端侧的部署效果,MobileCLIP2是其改进多模态强化训练方法后的升级版模型。

论文中提到,与上一代模型相比,MobileCLIP2-B在图像分类基准数据集ImageNet-1k上的零样本准确率提高了2.2%。其模型变体MobileCLIP2-S4在iPhone 12 Pro Max上测得的零样本准确率可对标参数规模更大的SigLIP-SO400M/14。

此次其改进的多模特训练训练机制采用了改进的教师监督(Teacher Supervision)与字幕数据(Caption Data)来提升零样本性能。

与此同时,在移动端,该训练机制支持多模态模型直接在移动、边缘设备上部署,实现零样本检索/分类,具有极低的延迟和内存占用。

目前,MobileCLIP2所有模型变体的预训练权重均已公开,开发者可以直接部署和进行基准测试。苹果还发布了数据生成代码,开发者可以基于此使用分布式可扩展处理创建具有任意教师的新强化数据集。

模型的预训练权重链接:

https://github.com/apple/ml-mobileclip

强化训练的数据生成代码链接:

https://github.com/apple/ml-mobileclip-dr

GitHub链接:

https://github.com/apple/ml-mobileclip

Hugging Face链接:

https://huggingface.co/collections/apple/mobileclip2-68ac947dcb035c54bcd20c47

论文地址:

https://arxiv.org/html/2508.20691v1

一、iPhone 12 Pro Max可跑,强调可复现性、可扩展性

MobileCLIP2的核心优势在于实现了相比现有模型参数规模更小、延迟更低,且不牺牲泛化能力、准确性的性能。

在零样本性能方面,MobileCLIP2-S4在iPhone 12 Pro Max上测得的准确率与SigLIP-SO400M/14相当,但参数量为后者的1/2;在延迟方面,MobileCLIPS2-S4的表现优于DFN ViT-L/14,延迟约为后者的约40%。

零样本指标提升可以使模型在未经过特定任务、类别或场景的训练时,无需额外标注数据微调,就能直接将预训练学到的通用知识迁移到未知任务中。


▲图像分类基准数据集ImageNet-1k上的基准测试结果

MobileCLIP2系列模型在不同延迟条件下,38个数据集上平均性能均为最佳。

从下面的测评中看到,MobileCLIP2-S2与SigLIP2-B/32的参数规模差距达到4倍,但性能相当,MobileCLIP2-S4与DFN ViT-L/14相比,推理速度提高2.5倍。


此外,这一多模态训练机制强调可复现性、可扩展性。目前,MobileCLIPS2的所有模型变体的预训练权重均已公开,支持开发者直接部署和进行基准测试。

其强化训练的数据生成代码支持任意教师集成和分布式可扩展处理,便于开发者为进一步研究和快速原型设计定制数据集强化。

在移动端,该训练机制支持直接在移动、边缘设备上部署,实现零样本检索、分类,具有极低的延迟和内存占用;通过开放数据管道和模块化的教师、标题生成器集成,可扩展到新的模态或数据域。

二、整合教师监督模型与字幕数据,提升多模态模型语义覆盖范围

MobileCLIP2的多模态强化训练机制能够将来自多个来源的知识高效地蒸馏到较小的模型中,并基于基础图像-文本对进行操作。

该训练机制整合了教师监督(Teacher Supervision)与字幕数据(Caption Data),旨在训练强鲁棒和高迁移性,同时最大限度降低训练或推理过程中的计算开销。字幕数据指的是与图像、视频等视觉内容关联的文本描述信息。

其核心是通过用DFN预训练的CLIP模型替换先前的集成来改进教师监督模型,为多模态模型训练增加合成字幕,也就是图像、视频等数据的文本描述信息。

具体来看,首先更强的CLIP教师模型指的是,MobileCLIP2通过用DFN预训练的CLIP模型替换先前的集成来改进教师监督,DFN2B-CLIP-ViT-L-14和DFN2B-CLIP-ViT-L-14-s39b的组合构成了教师集成的骨干。

其背后技术细节包括,对每个教师模型独立进行对数尺度(Logits Scale)的精细调整;集成蒸馏在ImageNet-1k验证集上比单教师变体提高了高达2.8%,这证明教师信号聚合对于将强性能压缩到紧凑的学生模型中至关重要;这一精度提升使MobileCLIP2能够以更少的参数数量和延迟,实现与更大参数规模的模型性能相当或超越。

其次,字幕生成教师模型(Captioner Teachers)通过两阶段协议进行升级优化。

第一阶段研究人员在大型DFN-2B数据集上对CoCa风格的描述器进行初始再训练,以提升对图像内容的表达能力。
第二阶段是在高质量标题数据集MSCOCO-123k、MSCOCO-38k上进行后续微调,生成具有增强语义质量和多样性的合成标题。

此外,苹果研究人员的消融研究表明,在精选标题上进行微调可显著提升零样本分类和检索效果。其分析了标题生成的束搜索和采样策略,发现为每张图像生成超过1-2个标题的边际效益不明显,表明策略性多样性优于数量。

这些用于蒸馏训练的合成文本描述,提升了模型的语义覆盖范围,使得MobileCLIP2-B比MobileCLIP-B在ImageNet-1k零样本任务的准确率上提高了2.2%。

结语:苹果改进端侧多模态模型训练机制,降低开发者部署门槛

在苹果发布的论文中提到,MobileCLIP2在多模态模型训练机制上的改进,与参数高效微调、实时设备端推理以及从大型多模态教师库中进行可扩展蒸馏等正在进行的大模型发展趋势高度兼容。

同时,苹果将所有模型变体的预训练权重、数据生成代码开源,也可以帮助开发者加速实验、应用于新任务以及适应不同计算环境。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浙江金华一校花太漂亮了,五官精致, 身高172,美得让人移不开眼

浙江金华一校花太漂亮了,五官精致, 身高172,美得让人移不开眼

老吴教育课堂
2026-02-10 17:31:24
畸形儿风波后,阚清子首度表态,早产女婴夭折传闻终于真相大白

畸形儿风波后,阚清子首度表态,早产女婴夭折传闻终于真相大白

漫婷侃娱乐
2026-02-02 13:55:21
ESPN:斯洛特拿杯赛+欧冠资格或才能留任;利物浦有意阿隆索

ESPN:斯洛特拿杯赛+欧冠资格或才能留任;利物浦有意阿隆索

舟望停云
2026-02-10 18:05:05
《太平年》嫡子败给养子!钱俶那晚急病托孤,揭开钱惟濬被废真相

《太平年》嫡子败给养子!钱俶那晚急病托孤,揭开钱惟濬被废真相

花漾夜雨飘雪
2026-02-10 09:59:46
深度分析骑士逆转掘金5大得失:双星接管比赛 角色球员建功

深度分析骑士逆转掘金5大得失:双星接管比赛 角色球员建功

云隐南山
2026-02-10 18:18:12
爱泼斯坦粗暴性虐待勒死2名外国女孩:结果把她们埋葬在牧场附近

爱泼斯坦粗暴性虐待勒死2名外国女孩:结果把她们埋葬在牧场附近

时分秒说
2026-02-09 12:00:16
能看见此文,则说明你已具备无量福报

能看见此文,则说明你已具备无量福报

金沛的国学笔记
2026-02-07 17:50:24
没有预兆,张本美和突然官宣告别,发声透露原因,哥哥也被打懵

没有预兆,张本美和突然官宣告别,发声透露原因,哥哥也被打懵

海棠未眠a
2026-02-10 17:23:58
河南一卖兔子的摊贩当街摔死多只兔子,用脚不断踩踏碾压,在民警离开后又继续虐待兔子,当地12345回应

河南一卖兔子的摊贩当街摔死多只兔子,用脚不断踩踏碾压,在民警离开后又继续虐待兔子,当地12345回应

观威海
2026-02-09 17:06:08
高市胜选、赖清德发文祝贺,野田佳彦谢罪,称万死难辞其咎

高市胜选、赖清德发文祝贺,野田佳彦谢罪,称万死难辞其咎

张殿成
2026-02-10 17:45:13
千问官方再次强调:免单卡可以买年货,有效期还有19天

千问官方再次强调:免单卡可以买年货,有效期还有19天

雷峰网
2026-02-09 16:58:05
替补逆袭成超巨有多难?满打满算NBA就5人做到,榜一统治一个时代

替补逆袭成超巨有多难?满打满算NBA就5人做到,榜一统治一个时代

毒舌NBA
2026-02-09 12:11:23
李煜至死没想通:最该联手的钱弘俶,为何捅他一刀?

李煜至死没想通:最该联手的钱弘俶,为何捅他一刀?

爱历史
2026-01-25 11:25:36
离开央视后的李思思,在小县城接商演,状态不佳?网友:反差太大

离开央视后的李思思,在小县城接商演,状态不佳?网友:反差太大

笑一个吧
2026-02-10 17:34:11
有儿子的家庭集体觉醒:宁让儿子单着,不娶“祖宗”进门

有儿子的家庭集体觉醒:宁让儿子单着,不娶“祖宗”进门

青苹果sht
2026-02-08 05:48:26
如果想知道法西斯当年怎么上台的,看看现在的日本

如果想知道法西斯当年怎么上台的,看看现在的日本

观察者网
2026-02-10 14:24:20
普京心腹集体谢幕,五大核心仅剩一人掌权,“后普京时代”要来?

普京心腹集体谢幕,五大核心仅剩一人掌权,“后普京时代”要来?

你是我心中最美星空
2026-02-10 03:26:13
魏博牙兵覆灭记,一场板砖与刀枪的绝望对决

魏博牙兵覆灭记,一场板砖与刀枪的绝望对决

掠影后有感
2026-02-08 11:37:31
曝四字少数民族女明星,被经纪人潜规则,多位艺人卷入猜名风波!

曝四字少数民族女明星,被经纪人潜规则,多位艺人卷入猜名风波!

倾世璃歌
2026-02-10 17:34:02
“就中国一个可靠选项,新总统却嚷嚷要亲美”

“就中国一个可靠选项,新总统却嚷嚷要亲美”

观察者网
2026-02-10 15:29:45
2026-02-10 18:48:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11208文章数 116966关注度
往期回顾 全部

科技要闻

Seedance刷屏:网友们玩疯 影视圈瑟瑟发抖

头条要闻

特朗普罕见承认:我犯了个大错

头条要闻

特朗普罕见承认:我犯了个大错

体育要闻

NBA上演全武行,超大冲突4人驱逐!

娱乐要闻

全红婵官宣喜讯,杂志首秀太惊艳

财经要闻

雀巢中国近千经销商的“追债记”

汽车要闻

应用于190KW四驱Ultra版 方程豹钛7搭载天神之眼5.0

态度原创

家居
旅游
手机
游戏
公开课

家居要闻

宁静港湾 灵动与诗意

旅游要闻

速存!“史上最长春节”临近,这份自贡免费景点指南请收好!

手机要闻

iQOO Z11系列入网:LCD屏+骁龙7系 LCD党的梦中情机

胎死腹中!经典赛博朋克IP新作突遭下架 Steam停售

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版