网易首页 > 网易号 > 正文 申请入驻

Apple Intelligence是如何“练”成的?最全解读:模型架构、预训练、后训练、推理优化和评测

0
分享至

撰文|马雪薇

前言

Siri 终于变身“AI Siri”,万众期待的 Apple Intelligence 来了。

伴随 Apple Intelligence 上线 iOS 18、iPadOS 18 和 macOS Sequoia,苹果也发布了自家大模型的技术报告,公布了大量技术细节,十分受业界关注。

据介绍,Apple Intelligence 包含了多个高效能的生成模型,它们快速、高效,专为用户日常任务而设计,并能即时适应用户当前的活动。构建到 Apple Intelligence 中的基础模型已经为用户体验进行了优化,如写作和润色文本、优先级排序和汇总通知、为与家人和朋友的对话创建有趣的图片,以及采取应用内操作以简化跨应用交互。

在技术报告中,苹果团队详细介绍了其中两个模型——一个约 30 亿参数的语言模型 AFM(Apple Foundation Model),以及一个更大的、基于服务器的 AFM-server 语言模型——是如何构建和适配的,从而高效、准确地执行专业任务。

图|AFM 的模型概况

这两个基础模型是苹果创建的更大生成模型家族的一部分,用于支持用户和开发者;这包括一个基于 AFM 语言模型的编程模型,用于构建 Xcode 中的智能,以及一个扩散模型,帮助用户在视觉上表达自己,如在信息应用中。

AFM 的性能怎么样?

AFM 在开发过程中经历了严格的评估,评估结果表明,模型在预训练、后训练和特定任务上都表现出色,并符合苹果的核心价值观和负责任 AI 原则。

1. 预训练评估

苹果团队使用 HELM MMLU、HELMLite 和 OpenLLM 等公开评估基准,评估了 AFM 模型的语言理解和推理能力。结果显示,AFM 模型在多个评估指标上取得了优异的成绩,展现了强大的语言理解和推理能力,为后续的后训练和特定任务应用奠定了基础。

2. 后训练评估

苹果团队结合人类评估和自动评估基准,评估了 AFM 模型的通用能力和特定能力,比如指令遵循、工具使用和写作。评估结果如下:

  • 人类评估:AFM 模型在多个任务上媲美或优于其他开源和商业模型,表明模型能够理解和遵循复杂指令,并生成高质量的文本。

图|AFM 模型与其他开源模型和商业模型对比,人类评分者更喜欢 AFM 模型。

研究团队在神经元描述范式上评估 MAIA,研究显示,MAIA 在真实模型和合成神经元数据集上均取得了优异的描述效果,预测能力优于基线方法,并与人类专家相当。

  • 指令遵循评估:AFM 模型在 IFEval 和 AlpacaEval 2.0 LC 等基准上取得了优异的成绩,表明模型能够有效地理解和遵循指令。

图|AFM 模型和相关模型的指令遵循能力比较,使用 IFEval 测量,值越高表示能力越好。


  • 工具使用评估:AFM 模型在 Berkeley Function Calling Leaderboard 基准上取得了最佳的整体准确率,表明模型能够有效地使用工具。


图|AFM-server 达到了最佳的整体精度,优于 Gemini-1.5-Pro-Preview-0514 和 GPT-4。

  • 写作评估:AFM 模型在内部总结和写作基准上表现出色,表明模型能够生成流畅和高质量的文本。

图 | AFM 与一些最杰出的模型以及较小规模的开源模型进行比较。与Gemma-7B和Mistral-7B相比,AFM-on-device 可以实现相当或更好的性能。AFM-server 显著优于 dbrx - directive,与 GPT-3.5 和 GPT-4相当。

  • 数学评估:AFM 模型在 GSM8K 和 MATH 等基准上取得了优异的成绩,表明模型能够有效地解决数学问题。

图|研究团队比较了训练后 AFM 在数学基准上的表现,包括 GSM8K 和 math。AFM-on-device 的性能明显优于 Mistral-7B 和 Gemma-7B。

此外,研究团队还对模型进行了特定任务评估和安全性评估。他们使用人类评估和特定任务评估基准,评估 AFM 模型在特定任务上的表现,例如邮件摘要、消息摘要和通知摘要。根据评估结果,AFM 模型在邮件摘要、消息摘要、通知摘要方面的表现在多个方面优于其他模型,比如准确性、完整性和可读性。

在安全性方面,研究团队使用对抗性数据集和人类评估,评估 AFM 模型对有害内容和敏感话题的抵抗力。评估结果显示,AFM 模型对对抗性数据和敏感话题表现出了良好的抵抗力,在一定程度上避免了产生有害或不当的响应。

AFM 是如何“练”成的

架构

与大多主流模型一样,AFM 模型基于 Transformer 架构,但也采用了一些特定的设计选择来提高效率和性能。主要组成部分如下:

  • Transformer 模块:AFM 使用标准的 Transformer 模块,包括多头注意力机制和前馈神经网络。

  • 共享输入/输出嵌入矩阵:该设计减少了模型参数的数量,提高了内存效率。

  • 预归一化和 RMSNorm:这些技术提高了训练的稳定性,并帮助模型学习更复杂的模式。

  • 查询/键归一化:该技术进一步提高了训练的稳定性。

  • 分组查询注意力(GQA):GQA 机制减少了内存占用,并提高了计算效率。

  • SwiGLU 激活函数:该激活函数提高了模型的效率。

  • RoPE 位置嵌入:RoPE 机制支持长文本的编码,并提高了模型对上下文的表示能力。

图|AFM-on-device 具有 3072 个参数,适用于在设备上进行推理。它使用了 26 个 Transformer 层,每个层包含 128 个头,8 个查询/键头和 24 个查询头。

预训练

AFM 模型的预训练过程旨在训练强大的语言模型,以支持 Apple Intelligence 系统的各种功能。AFM 模型使用 AXLearn 框架在 Cloud TPU 群上训练,该框架支持大规模模型和序列长度的训练,并提供了高效的训练和推理性能。

AFM 预训练数据集由多种类型的优质数据组成,包括:

  • 网页内容:使用 Applebot 爬取的公开可用信息,并进行了过滤。

  • 授权数据集:从出版商获得的高质量数据集,提供多样化的长文本数据。

  • 代码:从 GitHub 上获取的开源代码数据,覆盖多种编程语言。

  • 数学:包含数学问题、论坛、博客、教程和研讨会等数学内容的网页数据。

  • 公共数据集:经过评估和筛选的公开可用数据集。

AFM 预训练分为三个阶段:

  • 核心阶段:使用最大规模的数据集进行训练,主要目标是学习基础的语言知识和模式。

  • 持续阶段:在核心阶段的基础上,增加代码和数学数据,并降低网页数据的权重,以进一步扩展模型的知识范围。

  • 上下文扩展阶段:在持续阶段的基础上,使用更长的序列长度和合成长文本数据,以提高模型对长文本的处理能力。

后训练

AFM 在预训练阶段获得了强大的语言理解能力,但为了将其应用于特定任务,比如邮件摘要、消息摘要和通知摘要,还需要进行后训练。包括:

  • 监督微调(SFT):

    • 数据收集:使用人类标注数据和合成数据,确保数据质量多样且涵盖各种自然语言使用场景。

    • 数据混合:仔细选择和组合人类数据和合成数据,形成高质量的数据混合。

    • 微调方法:使用 LoRA 适配器对模型进行微调,仅调整适配器参数,保留模型的通用知识。

  • 基于人类反馈的强化学习(RLHF):

    • 奖励模型:使用人类偏好数据训练奖励模型,评估模型响应的质量。

    • 迭代教学委员会(iTeC):使用多种偏好优化算法,包括拒绝采样、直接偏好优化和在线强化学习,迭代地改进模型。

    • 在线 RLHF 算法(MDLOO):使用 Mirror Descent 策略优化和 Leave-One-Out 优势估计器来最大化奖励,提高模型质量。

后训练的优势:

  • 模型质量提升:后训练显著提高了 AFM 模型的质量和性能,使其在特定任务上表现出色。

  • 符合苹果核心价值观和负责任 AI 原则:后训练过程充分考虑了数据质量、安全性和有害内容的过滤,确保模型符合苹果的核心价值观和负责任 AI 原则。

  • 可扩展性:后训练方法可扩展到其他任务,使 AFM 模型能够支持更多 Apple Intelligence 功能。

推理优化

AFM 不仅需要具备强大的语言理解能力,还需要能够高效地运行在 iPhone、iPad 和 Mac 等设备上,以及 Apple 硅服务器上的 Private Cloud Compute。为了实现这一目标,苹果开发了一系列优化技术,以确保 AFM 模型在特定任务上的高效运行,同时保持整体模型质量。

优化方法:

  • 模型量化:使用 4 位量化技术对 AFM 模型进行量化,显著降低模型大小和推理成本。

  • 精度恢复适配器:使用 LoRA 适配器来恢复量化模型的精度,使其接近未量化模型的表现。

  • 混合精度量化:使用 4 位和 2 位量化精度对模型的各个层进行量化,进一步降低内存占用,同时保持模型质量。

  • 交互式模型分析:使用 Talaria 工具分析模型的延迟和功耗,指导比特率选择,优化模型性能。

  • 运行时可替换的适配器:使用 LoRA 适配器来微调模型,使其能够针对特定任务进行调整,同时保持模型的通用知识。

优化案例-邮件摘要:

  • 数据收集:收集包含电子邮件、消息和通知摘要的输入数据,并进行数据清洗和去重。

  • 合成摘要生成:使用 AFM 服务器生成符合产品要求的合成摘要,并使用规则和模型进行过滤,确保数据质量。

  • 提示注入:将 AFM 服务器生成的摘要添加到训练数据中,帮助 AFM 设备模型更好地理解和生成摘要。

此外,Apple Intelligence 遵循一系列负责任的 AI 原则,包括赋能用户、代表用户、谨慎设计、保护隐私等。在这篇技术报告中,苹果反驳了有关其采用道德上有问题的方法来训练某些模型的指控,重申它没有使用私人用户数据,而是将公开可用的数据和授权数据结合起来用于 Apple Intelligence。他们强调, AFM 模型的训练数据是以“负责任”的方式获取的。

更多详细内容,请查看技术报告:

https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

|点击关注我 记得标星|

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
他被调任军区政委,两任司令毕恭毕敬,总长、副总长来视察很尊重

他被调任军区政委,两任司令毕恭毕敬,总长、副总长来视察很尊重

鹤羽说个事
2026-01-22 11:30:30
捞金失败!2个劣迹艺人下乡商演被举报,官媒发文,后路也要断了

捞金失败!2个劣迹艺人下乡商演被举报,官媒发文,后路也要断了

喜欢历史的阿繁
2026-01-22 14:31:16
曼联700万铁闸拒绝冬窗离队!接洽恩迪迪真相揭晓,两人仍是目标

曼联700万铁闸拒绝冬窗离队!接洽恩迪迪真相揭晓,两人仍是目标

罗米的曼联博客
2026-01-22 11:43:26
商业航天概念涨势扩大 十余只成分股涨停

商业航天概念涨势扩大 十余只成分股涨停

财联社
2026-01-22 10:40:05
特变电工:黄金年产量约2.5-3吨

特变电工:黄金年产量约2.5-3吨

财联社
2026-01-21 15:47:08
字母哥爆了!正式和里弗斯翻脸,拒绝沟通不理教练!想走就别装了

字母哥爆了!正式和里弗斯翻脸,拒绝沟通不理教练!想走就别装了

嘴炮体坛
2026-01-22 14:19:10
收到红色通缉令,马科斯又被弹劾,莎拉趁势反击,中方在南海出手

收到红色通缉令,马科斯又被弹劾,莎拉趁势反击,中方在南海出手

阿钊是个小小评论员
2026-01-22 02:40:45
高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

趣文说娱
2026-01-04 16:34:24
季莫申科:因为得到很多人支持,泽连斯基当局想在大选前消灭我

季莫申科:因为得到很多人支持,泽连斯基当局想在大选前消灭我

生活魔术专家
2026-01-22 13:15:52
萨尔加多:贝克汉姆当年每天都找我出门,我妻子为此很生气

萨尔加多:贝克汉姆当年每天都找我出门,我妻子为此很生气

懂球帝
2026-01-22 11:22:52
哈佛女孩怒斥牢A,直言斩杀线不存在,润人急了……

哈佛女孩怒斥牢A,直言斩杀线不存在,润人急了……

公子故事会
2026-01-21 18:33:09
中途岛海战的几十年谎言:日本航母被炸时,飞行甲板其实是空的

中途岛海战的几十年谎言:日本航母被炸时,飞行甲板其实是空的

史之铭
2026-01-18 17:31:05
“小婉君”金铭45岁现状:个子太矮事业受挫,住北京豪宅不婚不育

“小婉君”金铭45岁现状:个子太矮事业受挫,住北京豪宅不婚不育

手工制作阿歼
2026-01-15 11:39:59
1936 钱壮飞乌江失踪成谜,寻 50 年 1986 金沙县考证结局唏嘘

1936 钱壮飞乌江失踪成谜,寻 50 年 1986 金沙县考证结局唏嘘

磊子讲史
2026-01-08 15:47:38
铁路公司党委书记被查,大家关心的不是他违法犯罪而是名字怎么读

铁路公司党委书记被查,大家关心的不是他违法犯罪而是名字怎么读

杰丝聊古今
2026-01-20 09:00:29
越南政府居心不良,拉拢邓金娜入党,邓金娜:我是中国人

越南政府居心不良,拉拢邓金娜入党,邓金娜:我是中国人

我是玲玲
2024-06-30 17:58:49
中俄不收卢比,印度换了个办法,提议金砖国家用“共同数字货币”

中俄不收卢比,印度换了个办法,提议金砖国家用“共同数字货币”

阿器谈史
2026-01-22 11:59:14
遭到中方拒绝后,欧盟内部终于意识到:中国已经不把他们放在眼里

遭到中方拒绝后,欧盟内部终于意识到:中国已经不把他们放在眼里

小叨娱乐
2026-01-22 11:31:05
美共和党议员聚会切“格陵兰岛造型、覆盖美国旗图案”蛋糕,格陵兰岛自治政府呼吁民众备好狩猎武器、弹药和渔具

美共和党议员聚会切“格陵兰岛造型、覆盖美国旗图案”蛋糕,格陵兰岛自治政府呼吁民众备好狩猎武器、弹药和渔具

极目新闻
2026-01-22 09:59:18
120-66!丢人,太丢人了!小波特最新交易动向曝光

120-66!丢人,太丢人了!小波特最新交易动向曝光

篮球实战宝典
2026-01-22 12:19:46
2026-01-22 15:40:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

数码要闻

铭凡MS-S1 MAX桌面AI超算中心测评

头条要闻

特朗普邀请普京加入和平委员会:他办实事 影响力巨大

头条要闻

特朗普邀请普京加入和平委员会:他办实事 影响力巨大

体育要闻

珍妮回应爆料:湖人不感激詹姆斯付出绝非事实

娱乐要闻

钟丽缇土耳其高空落泪 与张伦硕拥吻

财经要闻

申通快递创始人被前夫索要股份

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

汽车要闻

今年集中上市 旅行车的春天可能真要来了

态度原创

艺术
本地
健康
时尚
公开课

艺术要闻

一场雪,飘进了唐诗

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

打工人年终总结!健康通关=赢麻了

50+女性穿衣没头绪?教你3个显瘦还时髦的思路,照搬就好看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版