网易首页 > 网易号 > 正文 申请入驻

苹果一次性开源了8个大模型! 包含模型权重、训练日志和设置,OpenELM全面开源

0
分享至


大数据文摘授权转载自夕小瑶科技说

作者:任同学

不以开放性著称的苹果居然同时开源了大模型的权重、训练和评估框架,涵盖训练日志、多个保存点和预训练设置。同时升级计算机视觉工具包 CVNets 为 CoreNet!支持 OpenELM!


▲图1.由Stable Diffusion3生成。

OpenELM是Apple苹果公司最新推出的语言模型系列,这次一共开源了8个模型,包括OpenELM-270M、OpenELM450M、OpenELM-1_1B和OpenELM-3B的预训练版和指令微调版。


▲图2.

OpenELM 采用了decoder-only的架构,并遵循最新的大语言模型(LLM)的设计,包括:

  1. 在任何全连接层中不使用可学习的偏置参数,

  2. 使用RMSNorm进行预归一化,同时使用旋转位置嵌入(ROPE)来编码位置信息,

  3. 使用分组查询注意力(GQA)代替多头注意力(MHA),

  4. 将前馈网络(FFN)替换为SwiGLU FFN,

  5. 使用Flash Attention来计算缩放点积注意力,

  6. 使用与LLama相同的分词器。


▲图3.OpenELM与开源LLM。 OpenELM比最近的开放LLM OLMo的性能高出2.36%,同时需要的预训练令牌减少了2倍。

研究人员提到,现有的大型语言模型在模型的每个Transformer层中使用相同的配置,导致参数在各层之间均匀分布。

而OpenELM中的每个Transformer层具有不同的配置(例如,注意力头数量和前馈网络维度),导致模型的每个层中参数数量不同。这使得OpenELM能够更好地利用可用的参数以实现更高的准确性。

OpenELM采用按层分配参数的策略,有效提升了Transformer模型各层的参数配置效率,显著提高模型精度。例如,在大约十亿参数的预算下,OpenELM的准确率较OLMo提升了2.36%,且预训练所需的Token数量减少了一半。

为了实现Transformer层中参数的非均匀分配,研究人员调整了每个Transformer层中注意力头的数量和FFN维度调整系数。

假设具有均匀参数分配的标准Transformer模型有 个Transformer层,每层输入的维度为 。MHA有 个头,每个头的维度为 。

另外,FFN的隐藏维度为 ,其中 是FFN隐藏层维度的调整系数。

假设具有均匀参数分配的标准Transformer模型有 个Transformer层,每层输入的维度为 。MHA有 个头,每个头的维度为 。


另外,FFN的隐藏维度为 ,其中 是FFN隐藏层维度的调整系数。

引入参数 和 来缩放 和 。对于第 层, 和 计算如下:


在这里, 和 是超参数,用于调整注意力头的数量。类似地, 和 被用于改变FFN层的宽度。因此,使用 和 来改变标准Transformer层的配置会导致模型中参数的非均匀分配。需要注意的是,设置 和 时则对应了标准均匀的Transformer模型。

可靠但保守的OpenELM?

对于预训练,苹果使用的是公开数据集,如RefinedWeb、PILE、RedPajama和Dolma v1.6,总共大约包含1.8万亿个token。


从数据上看,确实没有什么惊喜的感觉,因为既没有新的数据集发布,在规模上也没有创新,中规中矩!

对于模型的指令调优,指令调优(Instruction Tuning)和参数高效微调(Parameter-efficient Fine-tuning,PEFT)。

对于指令调优,使用了经过清理的 UltraFeedback 数据集的变种,该数据集包含了60,000个用于指令调优的提示。作者使用 Alignment Handbook 库进行指令调优。在优化过程中,他们使用了统计拒绝抽样方法或直接偏好优化方法。结果显示,指令调优能够在不同的评估框架中将 OpenELM 的平均准确率提高1-2%。


▲图5.指令调优提高了OpenELM不同规模上的准确性。

同时,在 CommonSense 推理训练和评估设置中使用了包含8个多项选择数据集、共计170,000的训练样本,用于进行参数高效微调研究。研究中使用了LoRA和DoRA等方法,将它们与OpenELM集成,并使用8个NVIDIA H100 GPU进行三轮微调。但是从结果上看,LoRA和DoRA都表现出相当的性能。


▲图6.当OpenELM在常识推理基准上进行微调时,LoRA和DoRA表现出相当的性能。

研究人员将OpenELM与PyThia、Cerebras-GPT、TinyLlama、OpenLM、MobiLlama和OLMo等模型进行了比较。在相似的模型大小下,OpenELM在ARC、BoolQ、HellaSwag、PIQA、SciQ和WinoGrande等主流的任务测试中的多数任务上展现出了更高的准确度。


尤其是,与OLMo模型相比,OpenELM在参数数量和预训练数据更少的情况下,准确率依然更高。


▲图7.OpenELM与各种评估框架中公开可用的LLM的比较。

值的注意的是,研究人员还发现尽管OpenELM的准确性比OLMo更高,但它却比OLMo更慢。同时,OpenELM的处理时间中有相当大一部分是由于未经优化的RMSNorm所导致的。

因此研究人员通过用Apex的RMSNorm替换未经优化的RMSNorm,观察到OpenELM的吞吐量明显增加。

然而,与使用优化的LayerNorm的模型相比,OpenELM仍存在相当大的性能差距,部分原因是OpenELM有113个RMSNorm层,而OLMo只有33个LayerNorm层。并且Apex的RMSNorm并不针对小输入进行优化。

当将OLMo中的LayerNorm替换为RMSNorm后,生成吞吐量则出现了显著下降。

不管怎么说,通篇看下来,OpenELM的实验也并不是那么有诚意,毕竟Phi-3系列作为小规模LLM中的出色工作,苹果不拿来对比一下确实不够意思!

而且,OpenELM并未在论文中提到相关的部署测试,相比之下, Phi-3-mini 已经在 iPhone 14 上实现本地运行并完全离线,实现每秒超过 12 token的生成效率。这波啊,属实是倒反天罡了~

升级的 CVNets:支持更广泛的AI任务

此次随 OpenELM 开源的还有深度神经网络工具包 CoreNet。

CoreNet 基于苹果公司在去年开源的一个计算机视觉工具包 CVNets 拓展,涵盖计算机视觉之外更广泛的应用,允许研究人员和工程师为各种任务训练标准和新颖的小型和大型模型,包括基础模型(例如 CLIP 和 LLM)、对象分类、对象检测和语义分割。

目前 CoreNet 已经支持了下面的工作:

  • OpenELM:具有开源训练和推理框架的高效语言模型系列

  • CatLIP:在 Web-scale Image-Text DataCLIP 上以 2.7 倍的预训练速度实现 CLIP 级视觉识别准确率

  • Reinforce Data, Multiply Impact:通过数据集强化提高模型准确性和稳健性

  • CLIP meets Model Zoo Experts:视觉增强的伪监督

  • FastVit:使用结构重参数化的快速混合视觉Transformer

  • Bytes Are All You Need: Transformers 直接操作的文件字节

  • MobileOne:改进的 One millisecond Mobile Backbone

  • RangeAugment:Efficient Online Augmentation with Range Learning

  • MobileViTv2:Separable Self-attention for Mobile Vision Transformers

  • CVNets:高性能计算机视觉库,ACM MM'22

  • MobileViT:轻量级、通用且适合移动设备的 Vision Transformer,ICLR'22

网友表示:

似乎可以将CoreNet中的模型导出为MLX可以运行的格式。与PyTorch相比,CLIP等模型实现了60%的加速(小型号的优势最大)。这可能表明他们消除了PyTorch MPS所遭受的一些驱动延迟。 我不禁觉得这次发布的时机与即将到来的苹果发布会有关。


参考资料

[1]https://arxiv.org/pdf/2404.14619.pdf

[2]https://github.com/apple/corenet

[3]https://huggingface.co/apple/OpenELM

租售GPU算力

租:4090/A800/H800/H100

售:现货H100/H800

特别适合企业级应用

扫码了解详情☝


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
还剩7000亿余额,美联储已破产,中国分批运回黄金,耶伦口风变了

还剩7000亿余额,美联储已破产,中国分批运回黄金,耶伦口风变了

海梦游者
2024-05-28 18:15:20
岳母给妻子90万,父母赶来借给弟弟买房,妻子打通电话我人财两空

岳母给妻子90万,父母赶来借给弟弟买房,妻子打通电话我人财两空

半夏解语
2024-06-04 07:00:03
曝断眉被退货!湖南台关闭评论暂停宣传,本人连夜删除发声

曝断眉被退货!湖南台关闭评论暂停宣传,本人连夜删除发声

萌神木木
2024-06-04 17:44:14
大牌中锋即将加盟泰山队,曾在巴黎队踢核心,已得到崔康熙认可

大牌中锋即将加盟泰山队,曾在巴黎队踢核心,已得到崔康熙认可

罗掌柜体育
2024-06-04 12:33:25
山西55岁女县委书记突然去世,告别仪式画面流出,一画面暗藏死因

山西55岁女县委书记突然去世,告别仪式画面流出,一画面暗藏死因

求实者
2024-06-03 20:31:28
追随蒋介石6年的郝柏村晚年称:蒋最大错误,就是接受雅尔塔协定

追随蒋介石6年的郝柏村晚年称:蒋最大错误,就是接受雅尔塔协定

我是斌哥哥
2024-04-06 10:46:20
朱婷!请你退出中国女排吧!

朱婷!请你退出中国女排吧!

宝哥精彩赛事
2024-06-04 17:40:51
通报已出!让残疾军人最后上车的女保安悔不当初,网友评论一边倒

通报已出!让残疾军人最后上车的女保安悔不当初,网友评论一边倒

战域笔墨
2024-06-02 22:52:52
六十年代,江青和主席出席活动,脸上洋溢着幸福的笑容

六十年代,江青和主席出席活动,脸上洋溢着幸福的笑容

历史控
2024-06-02 23:53:27
明确了:核酸检测可退钱!

明确了:核酸检测可退钱!

华人星光
2024-06-03 17:35:24
85后落马副局长几次考公“上岸”失败,伪造学历走人才引进

85后落马副局长几次考公“上岸”失败,伪造学历走人才引进

澎湃新闻
2024-06-03 21:48:39
由于热苏斯和津琴科可能双双离队,球迷对枪手转会期望并不高

由于热苏斯和津琴科可能双双离队,球迷对枪手转会期望并不高

足球推文C
2024-06-04 19:48:38
“一丝不挂”新舞蹈?惹争议,被摸下体更不害臊,金星质疑是对的

“一丝不挂”新舞蹈?惹争议,被摸下体更不害臊,金星质疑是对的

吃鱼思故渊
2024-05-16 21:48:21
西媒:马竞计划今夏签下曼城前锋阿尔瓦雷斯 球员渴望踢上主力

西媒:马竞计划今夏签下曼城前锋阿尔瓦雷斯 球员渴望踢上主力

智道足球
2024-06-04 19:43:13
赵丽颖古早黑历史曝光,惊人往事让人不敢相信,疑似没文化还当三

赵丽颖古早黑历史曝光,惊人往事让人不敢相信,疑似没文化还当三

花哥扒娱乐
2024-04-18 22:17:33
花七十万给孩子补课,却发现教初中的老师只有小学教师证

花七十万给孩子补课,却发现教初中的老师只有小学教师证

男女那点事儿儿
2024-06-04 16:54:25
三足鼎立❗姆哈贝身价并列世界第一1.8亿欧已半年;谁值谁不值❓

三足鼎立❗姆哈贝身价并列世界第一1.8亿欧已半年;谁值谁不值❓

直播吧
2024-06-03 20:34:12
浙江石人峡两人被冲走后续:全部死亡,抽烟男动作并非致命一击

浙江石人峡两人被冲走后续:全部死亡,抽烟男动作并非致命一击

平祥生活日志
2024-06-04 13:18:42
禁赛12个月!足协公布今年最重罚单,裁判有激怒球员之嫌

禁赛12个月!足协公布今年最重罚单,裁判有激怒球员之嫌

中超伪球迷
2024-06-04 12:14:27
老公醉酒后,日本客户把我拖进洗手间,他的粗鲁,让我绝望!

老公醉酒后,日本客户把我拖进洗手间,他的粗鲁,让我绝望!

半山小故事
2023-06-07 13:38:09
2024-06-04 20:36:49
大数据文摘
大数据文摘
专注大数据,每日有分享!
6258文章数 94264关注度
往期回顾 全部

科技要闻

斯坦福团队抄袭国产大模型后道歉 承诺撤下

头条要闻

今年第30虎落马 任职地曾“倒查20年”

头条要闻

今年第30虎落马 任职地曾“倒查20年”

体育要闻

一位糖尿病患者,和他的24年皇马梦

娱乐要闻

杨幂留言为热巴庆生,姐妹情深惹人羡

财经要闻

又一座城市,房价“鹤岗化”了!

汽车要闻

2.0T+云辇-P+天神之眼 方程豹豹8还配软包内装

态度原创

教育
数码
本地
公开课
军事航空

教育要闻

【中招咨询】北京钱学森中学北校区:航天科技特色 助力师生发展

数码要闻

搭载 Lunar Lake 处理器,华硕发布 ExpertBook P5 商务笔记本

本地新闻

我和我的家乡|踏浪营口,心动不止一夏!

公开课

近视只是视力差?小心并发症

军事要闻

杰巴利耶难民营遭巨大破坏 以军撤离后剩下废墟

无障碍浏览 进入关怀版