网易首页 > 网易号 > 正文 申请入驻

苹果加入开源大战,官宣端侧小模型OpenELM!参数2.7亿到30亿一台M2 Mac可跑

0
分享至


新智元报道

编辑:桃子

【新智元导读】开源战在这半个月愈演愈烈。先是Llama 3,又到微软Phi-3,再到今天苹果发布的OpenELM。四种不同小参数版本全部上线,我们离iPhone装进大模型不远了。

从Llama 3到Phi-3,蹭着开源热乎劲儿,苹果也来搞事情了。

今天,苹果团队发布了OpenELM,包含了2.7亿、4.5亿、11亿和30亿四个参数版本。

与微软刚刚开源的Phi-3相同,OpenELM是一款专为终端设备而设计的小模型。


论文地址:https://arxiv.org/abs/2404.14619

论文称,OpenELM使用了「分层缩放」策略,来有效分配Transformer模型每一层参数,从而提升准确率。

如下这张图,一目了然。

在约10亿参数规模下,OpenELM与OLMo相比,准确率提高了2.36%,同时需要的预训练token减少了2倍。


抱抱脸创始人表示,苹果加入了AI开源大战,一口气在HF中心发布了四款模型。


OpenELM有多强?

OpenELM的诞生,显然瞄准了谷歌、三星、微软这类的竞争对手。

近几天,微软开源的Phi-3,在AI社区引起了不小的反响。

因为,小模型的运行成本更低,而且针对手机和笔记本电脑等设备进行了优化。


根据论文介绍,苹果这款模型不仅能在笔记本(配备英特尔i9-13900KF CPU、RTX 4090 GPU,24GB内存),还可以在M2 MacBook Pro(64GiB内存)运行。

而OpenELM具体性能表现如何?

在零样本和少样本设置中,OpenELM的结果如下图表3所示。


通过与开源的大模型比较,OpenELM的变体比12亿参数OLMo的准确率提高了1.28%(表4a)、2.36%(表4b)和 1.72%(表4c)。

值得注意的是,OpenELM使用了OLMo少2倍的预训练数据的情况下,达到了这一水平。


再来看模型指令微调的结果。

如下表5所示,在不同的评估框架中,指令微调都能将OpenELM的平均准确率提高1-2%。


表6展示了参数高效微调的结果。PEFT方法可以应用于OpenELM,LoRA和DoRA在给定的CommonSense推理数据集中,提供了相似的平均准确度。


下表7a和7b分别显示了GPU和MacBook Pro上的基准测试结果。

尽管OpenELM对于相似的参数数量具有更高的精度,但研究人员观察到OpenELM要比OLMo慢。


虽然本研究的主要重点是可重复性而非推理性能,但研究人员还是进行了全面分析,以了解瓶颈所在。

分析结果表明,OpenELM处理时间的很大一部分,归因于研究者对RMSNorm的简单实现。

具体来说,简单的RMSNorm实现会导致许多单独的内核启动,每个内核处理一个小输入,而不是像LayerNorm那样启动一个融合的内核。

用Apex的RMSNorm替换简单的RMSNorm,结果发现OpenELM的吞吐量有了显著提高。

然而,与使用优化LayerNorm的模型相比,性能差距仍然很大,部分原因是:

(1)OpenELM有113个RMSNorm层,而OLMo只有33个LayerNorm层;

(2)Apex的RMSNorm没有针对小输入进行优化。


作者贡献

有趣的是,论文最后一部分还列出了每位作者,在这项研究中的具体贡献。

从预训练数据收集和工具、架构设计、模型训练,到评估套件和工具、HF集成、指令微调、参数高效微调,再到性能分析和MLX转换、代码审查,bug修改和维护全程都分工明确。

具体每人参与的内容,如下图所示。


参考资料:

https://arxiv.org/abs/2404.14619


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小羽与王思聪分手!聊天记录曝光,王思聪不舍:宝宝好好照顾自己

小羽与王思聪分手!聊天记录曝光,王思聪不舍:宝宝好好照顾自己

郑丁嘉话
2024-05-04 15:26:19
突破卡脖子,央视官宣我国芯片或换道超车,中国反手禁用美芯片!

突破卡脖子,央视官宣我国芯片或换道超车,中国反手禁用美芯片!

常高俊April
2024-05-02 17:45:12
你在游泳池遇到哪些尴尬的事?网友老婆出来的时候,朋友立起来了

你在游泳池遇到哪些尴尬的事?网友老婆出来的时候,朋友立起来了

今日搞笑分享
2024-04-30 17:47:59
今天是5月4号夜晚,突然出现1个重要消息,要来大动作吗?

今天是5月4号夜晚,突然出现1个重要消息,要来大动作吗?

股市皆大事
2024-05-04 15:20:11
周鸿祎迈巴赫后续!褚会长:已完成支付,车辆正过户,评论区炸锅

周鸿祎迈巴赫后续!褚会长:已完成支付,车辆正过户,评论区炸锅

王小乖
2024-05-03 18:03:21
戚薇自曝体脂率仅14%!生二胎后迅速瘦身,她却直呼观众别效仿

戚薇自曝体脂率仅14%!生二胎后迅速瘦身,她却直呼观众别效仿

娱乐的小灶
2024-05-04 04:29:51
吉林山村惊现凶猛生物,叼几百斤黑熊爬树,专家蹲守拍下画面

吉林山村惊现凶猛生物,叼几百斤黑熊爬树,专家蹲守拍下画面

可乐86
2024-05-04 08:26:24
谁泄露了情报?美国公布了福建舰在内的详细数据,还派了侦察机

谁泄露了情报?美国公布了福建舰在内的详细数据,还派了侦察机

星辰故事屋
2024-05-03 19:04:44
日元兑美元扩大涨幅1%至152.13

日元兑美元扩大涨幅1%至152.13

每日经济新闻
2024-05-03 20:40:14
男子盗楼兰古墓后精神失常,死前痛哭:彭加木未归,那些是沙民

男子盗楼兰古墓后精神失常,死前痛哭:彭加木未归,那些是沙民

纪实录
2024-05-02 19:49:15
欧倩怡曾受访讲吐槽老公大男子主义!郭晋安医美后面容狰狞!

欧倩怡曾受访讲吐槽老公大男子主义!郭晋安医美后面容狰狞!

曼妙观
2024-05-04 12:21:31
加拿大华人哭诉:37岁妻子患病13天,被执行安乐死,自己无权说话

加拿大华人哭诉:37岁妻子患病13天,被执行安乐死,自己无权说话

寻梦小真
2024-04-25 22:33:31
你错过了多少异性给你的暗示?

你错过了多少异性给你的暗示?

户外阿崭
2024-04-08 07:35:07
五一当天!顶级化学家突然去世,官方回应死因,最后露面照流出

五一当天!顶级化学家突然去世,官方回应死因,最后露面照流出

求实者
2024-05-02 23:09:21
乌军成功将美国的ATGM FGM-148“标枪”集成到地面无人系统上

乌军成功将美国的ATGM FGM-148“标枪”集成到地面无人系统上

老马拉车莫少装
2024-05-02 08:09:22
中国解决了这两个问题,美国就只剩下干瞪眼了!

中国解决了这两个问题,美国就只剩下干瞪眼了!

星辰故事屋
2024-05-03 20:06:35
高速塌方致48死,亡者家属到达现场,悲痛瘫坐在地崩溃大哭!

高速塌方致48死,亡者家属到达现场,悲痛瘫坐在地崩溃大哭!

时光倒流器
2024-05-03 10:36:18
黄晓明公司16艺人零红星?网友:真替晓明哥心疼!

黄晓明公司16艺人零红星?网友:真替晓明哥心疼!

流沙溪水
2024-05-02 14:19:24
有人说,像这样的高速公路,一枚导弹就可以造成巨大损坏

有人说,像这样的高速公路,一枚导弹就可以造成巨大损坏

作家李楠枫
2024-03-10 07:47:42
美人如花,玉颜如雪,魅力无限。

美人如花,玉颜如雪,魅力无限。

娱乐八卦木木子
2024-05-04 08:54:46
2024-05-04 18:52:49
新智元
新智元
AI产业主平台领航智能+时代
10989文章数 65463关注度
往期回顾 全部

数码要闻

非 AMD GPU,消息称三星 2026 款 Exynos 芯片将配自研图形芯片

头条要闻

返程高峰来临:南方多地将有暴雨 有人在高速堵3小时

头条要闻

返程高峰来临:南方多地将有暴雨 有人在高速堵3小时

体育要闻

蛰伏68年的印尼足球,也要扬帆起航了

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

贾跃亭的“闹剧”,该结束了

科技要闻

人类首次!去月背取样,中国人再进一步

汽车要闻

北京车展上的概念车,AI如何点评?小米SUV发布?

态度原创

教育
游戏
亲子
艺术
军事航空

教育要闻

二年级奥数题:难倒很多同学

《英雄联盟》反作弊补丁让电脑无法启动?拳头澄清

亲子要闻

他可能不是位合格的爸爸 但一定是

艺术要闻

造科幻之物于园林 “天工开悟——夏航雕塑展”于南池子美术馆呈现

军事要闻

绍伊古:俄方正在南千岛群岛建立观察哨所

无障碍浏览 进入关怀版