网易首页 > 网易号 > 正文 申请入驻

深挖苹果 AI 报告:端侧内存占用少 37.5%、云端创新 PT-MoE 架构

0
分享至

IT之家 7 月 22 日消息,科技媒体 9to5Mac 昨日(7 月 21 日)发布博文,挖掘苹果新技术报告论文,探究其 AI 模型的训练、优化及评估过程,并揭示了诸多幕后技术细节。

这份报告全称为《Apple Intelligence Foundation Language Models – Tech Report 2025》,详尽描述了苹果在多个 AI 方面的处理,涵盖模型架构、数据来源、预训练、后训练、工具开发、优化措施以及性能基准等。

该媒体解读该技术报告,挖掘了 4 个值得关注的要点:

端侧模型双区块设计

此前消息显示,苹果的 AI 模型将采用端侧 + 云端组合方式,端侧模型规模大约为 30 亿(3B)个参数。

根据最新公布的技术报告,苹果端侧 AI 模型分为 2 个区块(Blocks),其中第 1 个区块包含大约 62.5% 的 transformer 层,而第 2 个区块包含大约 37.5% 的 transformer 层,但移除了键(Key)和值(Value)的映射。

苹果表示这种分割方式,在不影响模型的总体性能和输出质量的情况下,让模型在缓存时,减少了约 37.5% 的内存需求,同时输出第一个 tokens 的时间也缩短了 37.5%。

云端模型采用创新架构

对于服务器端模型,苹果开发了一种专门为其私有云计算平台量身定制的架构,名为 Parallel-Track Mixture-of-Experts(PT-MoE)。

简单来说,混合专家(Mixture of Experts)模式意味着,不是依赖单一的大型 AI 模型,而是将其拆分为多个较小的子网络(或称为专家),只有在任务与它们的专长相关时才会激活这些子网络。

因此,如果输入提示与烹饪相关,只会激活烹饪领域的专家,而其他专家则保持休眠状态。这样,虽然整体模型依然庞大,但其模块化的设计使得模型能够更快、更精确地响应。

苹果构建了一种名为 Parallel Track Transformer 的新型 Transformer,并利用混合专家(MoE)层对其进行扩展。听起来可能很复杂,但关键在于:

传统的 Transformer 模型会通过一个层的堆栈依次处理 tokens,而苹果的设计则是将模型分为多个并行的轨道。每个轨道独立处理 tokens,并在某些点进行同步。

在每个轨道内,苹果将每个其他常规 Transformer 层替换为 MoE 层,每个标记只激活几个专家,而其他专家保持空闲。由于每个轨道都有自己的本地专家,模型避免了在整个系统中协调时的处理瓶颈。

再加上一个平衡本地上下文与整体理解(称为交织全局和本地关注层)的巧妙设计,最终形成了一个模块化、高效、可扩展的模型,速度更快、更精简,同时保持了高度的智能。

苹果大幅提升多语言支持

Apple 智能最初推出时最受诟病的问题之一(现在依然存在),是英语之外的语言支持有限。随着新模型的发布,苹果扩展了语言支持范围,并在报告中详细介绍了实现这一目标的步骤。

报告中提到,苹果将训练过程中使用的外语数据量从 8% 增加到了 30%。苹果还将其标记器的容量增加了 50%,意味着模型现在能够识别 150K 个不同的标记,而之前只能识别 100K 个。

数据收集

另外是关于数据收集方面,可以参考IT之家此前发布的博文。

苹果在新发布的研究论文中表示,如果出版商不同意其数据被抓取用于训练,苹果公司将不会抓取这些数据。

我们相信,使用多样且高质量的数据来训练我们的模型是必要的。这些数据包括我们从出版商那里获得授权的数据、公开可用或开源数据集中的数据,以及通过我们的网络爬虫 Applebot 抓取的公开信息。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
从60家店到全线崩盘!这家网红书店凉透了,为啥却没人同情?

从60家店到全线崩盘!这家网红书店凉透了,为啥却没人同情?

青眼财经
2026-02-02 23:23:17
缅北电诈明家刚伏法,白家就被执行死刑,下一个瑟瑟发抖的是谁?

缅北电诈明家刚伏法,白家就被执行死刑,下一个瑟瑟发抖的是谁?

一盅情怀
2026-02-03 18:36:59
春运首日,摩托大军再出发:一组数据看懂这场特殊的返乡潮

春运首日,摩托大军再出发:一组数据看懂这场特殊的返乡潮

老特有话说
2026-02-03 22:18:30
听说老领导出来散步了!

听说老领导出来散步了!

梳子姐
2026-02-02 16:55:43
蒙古国首都骚乱再起,社会矛盾愈发尖锐,反华到底图啥

蒙古国首都骚乱再起,社会矛盾愈发尖锐,反华到底图啥

素衣读史
2026-01-24 17:12:53
歼-20A高调试飞为哪般?涡扇-15加持战力飙升,美F-22优势不再

歼-20A高调试飞为哪般?涡扇-15加持战力飙升,美F-22优势不再

科学知识点秀
2026-02-04 08:00:09
弗里克:最后的困难局面是我们自己造成的,必须提高终结能力

弗里克:最后的困难局面是我们自己造成的,必须提高终结能力

懂球帝
2026-02-04 07:37:08
哈登主动离队原因曝光,火箭或成最大赢家

哈登主动离队原因曝光,火箭或成最大赢家

空樽对月花独瘦
2026-02-04 01:59:31
1965,风暴前的宁静

1965,风暴前的宁静

方待夜半听君语
2026-02-01 07:43:54
2028台湾大选民调出炉:赖郑支持率差距显著,萧旭岑发力

2028台湾大选民调出炉:赖郑支持率差距显著,萧旭岑发力

长星寄明月
2026-02-04 00:06:58
沙特公共投资基金回应C罗:利雅得胜利获资最多,成绩却不如人

沙特公共投资基金回应C罗:利雅得胜利获资最多,成绩却不如人

星耀国际足坛
2026-02-03 21:57:51
江疏影对自己的脚趾很自信

江疏影对自己的脚趾很自信

情感大头说说
2026-02-04 02:42:32
特朗普彻底暴怒!英国专家:此情况下,美国会即刻对华发动核武器

特朗普彻底暴怒!英国专家:此情况下,美国会即刻对华发动核武器

快看张同学
2026-01-30 16:14:29
邮报:阿莫林打算赛季结束后再发声,不想影响曼联剩余比赛

邮报:阿莫林打算赛季结束后再发声,不想影响曼联剩余比赛

懂球帝
2026-02-04 02:40:32
惊天反转!伊朗,要投降了?

惊天反转!伊朗,要投降了?

大嘴说天下
2026-02-03 20:36:57
大清名将海兰察:生吃动物,只喜胖妇,行军中直接用水牛解压

大清名将海兰察:生吃动物,只喜胖妇,行军中直接用水牛解压

铭记历史呀
2026-01-26 19:56:20
单程公交超2小时、涉及7万师生,上海市政协委员徐雄伟建言推进海湾大学城轨交建设

单程公交超2小时、涉及7万师生,上海市政协委员徐雄伟建言推进海湾大学城轨交建设

上观新闻
2026-02-03 22:29:06
炸锅!曼城 1.8 亿镑截胡双星,阿森纳引援遭致命打击

炸锅!曼城 1.8 亿镑截胡双星,阿森纳引援遭致命打击

澜归序
2026-02-04 08:04:57
巴基斯坦军方鏖战两天两夜,大批叛军就地伏诛,这场大捷前所未有

巴基斯坦军方鏖战两天两夜,大批叛军就地伏诛,这场大捷前所未有

王嚾晓
2026-02-03 13:45:44
岛国成人VA内幕,那些被逼着拍片儿的女孩

岛国成人VA内幕,那些被逼着拍片儿的女孩

年代回忆
2026-02-02 20:24:54
2026-02-04 08:59:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
327991文章数 606966关注度
往期回顾 全部

科技要闻

李飞飞:AI的终点不是写代码,而是人类的尊严

头条要闻

牛弹琴:180度转弯 和特朗普"你死我活"的狠人去了白宫

头条要闻

牛弹琴:180度转弯 和特朗普"你死我活"的狠人去了白宫

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

大S逝世一周年 S家没通知大S子女惹争议

财经要闻

35岁入行,先被考证“割韭菜”

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

教育
游戏
房产
亲子
公开课

教育要闻

考后一个月,大家都在做什么?

《鬼武者:剑之道》开发6年 团队规模近200人

房产要闻

大盘最低杀到8000+/㎡!海口59盘,最新房价曝光!

亲子要闻

2月大婴儿死亡,原因酒精中毒??亲妈故意往奶瓶里放酒,直接喝死了...

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版