网易首页 > 网易号 > 正文 申请入驻

深挖苹果 AI 报告:端侧内存占用少 37.5%、云端创新 PT-MoE 架构

0
分享至

IT之家 7 月 22 日消息,科技媒体 9to5Mac 昨日(7 月 21 日)发布博文,挖掘苹果新技术报告论文,探究其 AI 模型的训练、优化及评估过程,并揭示了诸多幕后技术细节。

这份报告全称为《Apple Intelligence Foundation Language Models – Tech Report 2025》,详尽描述了苹果在多个 AI 方面的处理,涵盖模型架构、数据来源、预训练、后训练、工具开发、优化措施以及性能基准等。


该媒体解读该技术报告,挖掘了 4 个值得关注的要点:

端侧模型双区块设计

此前消息显示,苹果的 AI 模型将采用端侧 + 云端组合方式,端侧模型规模大约为 30 亿(3B)个参数。

根据最新公布的技术报告,苹果端侧 AI 模型分为 2 个区块(Blocks),其中第 1 个区块包含大约 62.5% 的 transformer 层,而第 2 个区块包含大约 37.5% 的 transformer 层,但移除了键(Key)和值(Value)的映射。

苹果表示这种分割方式,在不影响模型的总体性能和输出质量的情况下,让模型在缓存时,减少了约 37.5% 的内存需求,同时输出第一个 tokens 的时间也缩短了 37.5%。


云端模型采用创新架构

对于服务器端模型,苹果开发了一种专门为其私有云计算平台量身定制的架构,名为 Parallel-Track Mixture-of-Experts(PT-MoE)。

简单来说,混合专家(Mixture of Experts)模式意味着,不是依赖单一的大型 AI 模型,而是将其拆分为多个较小的子网络(或称为专家),只有在任务与它们的专长相关时才会激活这些子网络。

因此,如果输入提示与烹饪相关,只会激活烹饪领域的专家,而其他专家则保持休眠状态。这样,虽然整体模型依然庞大,但其模块化的设计使得模型能够更快、更精确地响应。


苹果构建了一种名为 Parallel Track Transformer 的新型 Transformer,并利用混合专家(MoE)层对其进行扩展。听起来可能很复杂,但关键在于:

传统的 Transformer 模型会通过一个层的堆栈依次处理 tokens,而苹果的设计则是将模型分为多个并行的轨道。每个轨道独立处理 tokens,并在某些点进行同步。

在每个轨道内,苹果将每个其他常规 Transformer 层替换为 MoE 层,每个标记只激活几个专家,而其他专家保持空闲。由于每个轨道都有自己的本地专家,模型避免了在整个系统中协调时的处理瓶颈。

再加上一个平衡本地上下文与整体理解(称为交织全局和本地关注层)的巧妙设计,最终形成了一个模块化、高效、可扩展的模型,速度更快、更精简,同时保持了高度的智能。

苹果大幅提升多语言支持

Apple 智能最初推出时最受诟病的问题之一(现在依然存在),是英语之外的语言支持有限。随着新模型的发布,苹果扩展了语言支持范围,并在报告中详细介绍了实现这一目标的步骤。


报告中提到,苹果将训练过程中使用的外语数据量从 8% 增加到了 30%。苹果还将其标记器的容量增加了 50%,意味着模型现在能够识别 150K 个不同的标记,而之前只能识别 100K 个。

数据收集

另外是关于数据收集方面,可以参考IT之家此前发布的博文。

苹果在新发布的研究论文中表示,如果出版商不同意其数据被抓取用于训练,苹果公司将不会抓取这些数据。

我们相信,使用多样且高质量的数据来训练我们的模型是必要的。这些数据包括我们从出版商那里获得授权的数据、公开可用或开源数据集中的数据,以及通过我们的网络爬虫 Applebot 抓取的公开信息。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2909亿身价有何用?97岁的李嘉诚无力回天,两个60岁儿子已成心病

2909亿身价有何用?97岁的李嘉诚无力回天,两个60岁儿子已成心病

归史
2025-08-27 14:29:47
华为官宣:9月26日,新机正式开售!

华为官宣:9月26日,新机正式开售!

科技堡垒
2025-09-13 10:49:11
戴维斯杯:中国队客场3-0击败爱尔兰,重返世界一组资格赛

戴维斯杯:中国队客场3-0击败爱尔兰,重返世界一组资格赛

直播吧
2025-09-15 08:36:14
一句话的信息量能大到什么程度?网友:万般皆是命,半点不由人

一句话的信息量能大到什么程度?网友:万般皆是命,半点不由人

解读热点事件
2025-09-14 00:10:03
脑梗谨记,早晨1大忌,中午2不要,晚上3不做

脑梗谨记,早晨1大忌,中午2不要,晚上3不做

医学原创故事会
2025-09-12 13:53:42
女儿的美艳闺蜜借住我家,她问我:“可以叫你爸爸吗?”我沦陷了

女儿的美艳闺蜜借住我家,她问我:“可以叫你爸爸吗?”我沦陷了

宅家伍菇凉
2023-12-30 13:40:33
金融监管总局、中国人民银行、中国证监会联合启动2025年金融教育宣传周活动

金融监管总局、中国人民银行、中国证监会联合启动2025年金融教育宣传周活动

证券时报
2025-09-15 16:24:07
戏子误国!这6位为了捞金“坑惨”老百姓,如今下场是咎由自取

戏子误国!这6位为了捞金“坑惨”老百姓,如今下场是咎由自取

小椰的奶奶
2025-09-15 16:09:27
“大幅降息”要来了?美联储,突发!

“大幅降息”要来了?美联储,突发!

每日经济新闻
2025-09-15 18:38:10
善恶到头终有报!如今58岁的那英,终于为自己的“张扬”付出代价

善恶到头终有报!如今58岁的那英,终于为自己的“张扬”付出代价

一针见娱
2025-09-11 18:02:13
一个花卷33,一碗豆腐汤要69,贵到离谱的西贝,为什么总是挤满人

一个花卷33,一碗豆腐汤要69,贵到离谱的西贝,为什么总是挤满人

北纬的咖啡豆
2025-09-13 19:14:42
巴特尔二女儿结婚,没彩礼嫁妆,老公是葡萄牙富豪,他却晚年孤独

巴特尔二女儿结婚,没彩礼嫁妆,老公是葡萄牙富豪,他却晚年孤独

喜欢历史的阿繁
2025-09-15 16:05:10
美国务卿对黄岩岛国家级自然保护区说三道四,外交部:奉劝美方还南海清净太平

美国务卿对黄岩岛国家级自然保护区说三道四,外交部:奉劝美方还南海清净太平

澎湃新闻
2025-09-15 15:42:42
不能再忽悠印度了,外资下跌99%,国家级杀猪盘反被宰。

不能再忽悠印度了,外资下跌99%,国家级杀猪盘反被宰。

西方寻史
2025-09-15 17:25:50
多项数据位居同类第一,算力ETF——5G通信ETF(515050)回调布局机会受关注

多项数据位居同类第一,算力ETF——5G通信ETF(515050)回调布局机会受关注

界面新闻
2025-09-15 11:15:57
甘肃:暴雨+山洪预警齐发,兰州:沙尘将至

甘肃:暴雨+山洪预警齐发,兰州:沙尘将至

鲁中晨报
2025-09-15 14:15:07
重大转变:特朗普首次称普京为侵略者

重大转变:特朗普首次称普京为侵略者

微微热评
2025-09-15 21:43:30
天津女排有远见!全队将出国热身,李盈莹在列,对手名单曝光

天津女排有远见!全队将出国热身,李盈莹在列,对手名单曝光

跑者排球视角
2025-09-15 23:48:49
原来他早已经去世,患病后仍坚持拍戏,临走前放心不下的还是妻儿

原来他早已经去世,患病后仍坚持拍戏,临走前放心不下的还是妻儿

乡野小珥
2025-09-16 00:16:59
这种国家才配叫铁哥们!欠中国81亿全额还清,附赠百亿能源大礼!

这种国家才配叫铁哥们!欠中国81亿全额还清,附赠百亿能源大礼!

基斯默默
2025-09-15 12:04:03
2025-09-16 06:03:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
306011文章数 606545关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

中美就妥善解决TikTok问题达成基本框架共识

头条要闻

中美就妥善解决TikTok问题达成基本框架共识

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

旅游
家居
本地
公开课
军事航空

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

家居要闻

典雅大气 舒适中带童趣

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

三人伪装"外卖员""钓鱼佬"窃取军事秘密 详情公布

无障碍浏览 进入关怀版