网易首页 > 网易号 > 正文 申请入驻

OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源

0
分享至

新智元报道

编辑:桃子 乔杨

【新智元导读】小模型时代来了?OpenAI带着GPT-4o mini首次入局小模型战场,Mistral AI、HuggingFace本周接连发布了小模型。如今,苹果也发布了70亿参数小模型DCLM,性能碾压Mistral-7B。

小模型的战场,打起来了!

继GPT-4o mini、Mistral NeMo发布之后,苹果也入局了。

DCLM小模型包含两种参数规模——70亿和14亿,发布即开源。最大70亿参数超越了Mistral-7B ,性能接近Llama 3、Gemma。

根据苹果ML小组研究科学家Vaishaal Shankar(也是DCLM研发人员)的说法,这是迄今为止性能最好的「真正开源」的模型,不仅有权重和训练代码,而且是基于开放数据集DCLM-Baseline。

相比模型性能,DCLM做出的「真正开源」的典范更加引人关注。

对比大部分科技巨头只搞闭源模型,或「犹抱琵琶半遮面」,。

此外,Shankar还预告说,之后会继续上线模型中间检查点和优化器状态。

难道,这就是LLM开源社区的春天了吗?

DCLM系列全开源

目前,HuggingFace上已经发布了全部模型权重,其中的模型卡已经基本涵盖了关键信息。

https://huggingface.co/apple/DCLM-7B

DCLM-7B同样采用了decoder-only的架构,使用PyTorch和OpenLM框架进行预训练。

总共4T token的DCLM-baseline数据集来自于总量240T的DCLM,DCLM-7B模型又进一步过滤出其中的2.5T用于训练。

上下文长度为2048,小于Mistral 7B和Gemma 2 9B的8k长度。

性能方面,作者直接使用评估套件LLM Foundry,测试了模型在53个基准任务上的分数。

与其他模型进行比较时,除了MMLU分数,作者还自定义了两个指标——「核心准确率」(core)和「扩展准确率」(extended)。

前者是包括HellaSwag和ARC-E在内的22个任务中心准确率的均值,后者则涵盖全部53个任务。

与虽然使用的数据不是最多,但与其他同等大小的开放数据模型(权重与数据集都开源)相比,DCLM在全部3个指标上的性能都达到了最佳。

三列基准分数从左到右分别是:核心、MMLU、扩展

相比之前的SOTA MAP-Neo模型,DCLM-7B在5-shot的MMLU任务准确率达到63.7%,提升了6.6个百分点,同时训练所需的计算量减少了40%。

然而,如果和权重开源、数据集闭源的模型相比,效果就不尽如人意了。

DCLM在各个指标上都与Phi-3存在不小差距,与Mistral-7B-v0.3或Gemma 8B的分数大致相当。

研究人员发现,如果使用同一数据集中额外的100B数据进行训练,并将上下文长度扩展到8k时,模型在核心和扩展基准上的分数还会进一步提升,但MMLU结果没有变化。

这个结果,就全面超过了Mistral 7B-v0.3的分数。

此外,HuggingFace上还发布了7B模型的指令微调版本,在数学推理任务GSM8K上的性能实现大规模提升,分数由原来的2.1直接飙到52.5。

https://huggingface.co/apple/DCLM-7B-8k

除了7B版本,1.4B版本也同步上线。神奇的是,训练数据量相比7B版本不降反增,多了0.1T。

https://huggingface.co/TRI-ML/DCLM-1B

相比HuggingFace最近发布的SmolLM,DCLM-1B的性能显著更优,尤其是5-shot MMLU分数,比SmolLM提升了11.9%。

不仅如此,DCLM-1B在MMLU上41.9的得分也同样高于Qwen-1.5B的37.87和Phi-1.5B的35.90。

7B模型落后的事情,反而让1.4B模型反超了,果然小模型才是苹果的看家本领。

值得注意的是,7B模型仅能在Apple的示例代码许可(ASCL)下使用,但1.4B版本在Apache 2.0下发布,允许商业使用、分发和修改。

既然说到这次发布的DCLM系列模型,就不得不提它们的重要基础——DataComp基准。

论文地址:https://arxiv.org/pdf/2406.11794

DataComp这篇论文首发于6月17日,共同一作Jeffrey Li、Alex Fang和共同最后作者Vaishaal Shankar,也同样都是苹果DCLM的研发人员。

文章不仅对数据集的构建过程进行了详细阐述,也提到了关于DCLM模型的部分内容。

Vaishaal Shankar表示,将很快发布这篇论文的更新版,提供更多有关模型预训练的技术细节。

相比于对同一数据集修改模型,DataComp的思路反其道而行之——测评所用的模型是固定的,任务是在总共240T的数据池中过滤、处理出最好的数据。

可以说,这种做法与科技巨头们的研发思路非常一致——对于LLM的性能而言,预训练数据正在成为比模型架构和权重更重要的因素。

毕竟,Llama、Gemma、Phi等一系列「开源」模型都是只放权重、不公布数据。

既要Scaling Law,又要SLM

对于AI科技巨头来说,有时模型不是越大越好。

其实一直以来,AI社区中,并不缺少小模型,比如微软Phi系列模型多次迭代,以及6月末谷歌刚刚更新的Gemma 2 7B。

这周,OpenAI突然发布GPT-4o mini,Mistral AI联手英伟达发布Mistral NeMo,HuggingFace的SmoLLM等小模型的发布,为小模型的领域再次添了一把火。

正如OpenAI研究员所言,「虽然我们比任何人都更喜欢训练大模型,但OpenAI也知道如何训练小模型」。

小模型,优势在于成本低、速度快、更专业,通常只使用少量数据训练,为特定任务而设计。

大模型变小,再扩大规模,可能是未来发展的趋势之一。

前两天,在GPT-4o mini发布时,Andrej Karpathy也发表长推表达了类似的观点。

他认为,模型尺寸的竞争将会「反向加剧」,不是越来越大,反而是比谁更小更轻巧。

当前的LLM之所以逐渐变成「巨兽」,是因为训练过程仍然非常浪费,我们基本上是在要求模型记住整个互联网的内容(而且实际上,LLM的记忆能力还相当不错,质量上比人类好很多)。

但对于小模型来说,训练目标已经改变。关键问题是,AI系统如何从更少的数据中学到更多。

我们需要模型先变得更大,再变得更小,因为我们需要「巨兽」将数据重构、塑造为理想的合成形式,逐渐得到「完美的训练集」,再喂给小模型。

马斯克也表示同意这个观点。Karpathy所描述的这个模型改进阶梯,正是现实中特斯拉曾走过的路。

23年4月,Sam Altman曾宣布了AI大模型时代终结。最近采访中,他还确认了数据质量是进一步AI训练的关键成功因素。

微软研究人员在开发Phi模型时,就提出了这样的假设。Hugging Face的AI研究人员最近也证实了这一假设,并发布了一个高质量的训练数据集。

就以GPT-4为例,开发和使用超一万亿参数的成本超过了1亿美元。

而小模型,比如专在法律数据集上完成训练,可能使用不到100亿参数,成本不到1000万美元,使用更少算力响应每个查询,因此成本较低。

纳德拉曾表示,Phi⼩型模型系列规模仅为OpenAI背后免费模型1/100,而且在许多任务上的表现几乎同样出色。

除此以外,谷歌以及AI初创公司Mistral、Anthropic、Cohere今年也发布了规模较小的模型。

6月,苹果曾公布了自己的AI发展路线图,计划使用小型模型,这样就可以完全在手机上运行软件,使其更快速和更安全。

对于许多任务来说,比如总结文档或生成图像,大模型可能有点大材小用。

Transformer开山之作背后作者Illia Polosukhin表示,计算2+2不应该需要进⾏千万亿次运算。

不过,科技巨头们也并没有放弃大模型。苹果在今年WWDC大会上,曾宣布了在Siri助手中植入ChatGPT,以执行撰写电子邮件等复杂任务。

毕竟通往终极AGI/ASI,参数规模的扩大和智能的增长成正比。

参考资料:

https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/

https://www.wsj.com/tech/ai/for-ai-giants-smaller-is-sometimes-better-ef07eb98?mod=tech_lead_story

https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本彻底目瞪口呆,美国也完全难以置信,辽宁已成全球瞩目中心

日本彻底目瞪口呆,美国也完全难以置信,辽宁已成全球瞩目中心

文雅笔墨
2025-12-20 10:57:51
这应该是目前世界上最美的女总统了。

这应该是目前世界上最美的女总统了。

南权先生
2026-01-03 17:05:59
你们上海人对上海有什么贡献?看看你们上海人,不是老弱就是痴呆

你们上海人对上海有什么贡献?看看你们上海人,不是老弱就是痴呆

上海云河
2026-01-06 23:03:00
沈祥福、高洪波、杨晨当选北京市足协副主席

沈祥福、高洪波、杨晨当选北京市足协副主席

澎湃新闻
2026-01-07 04:22:04
1月7日外盘头条:特朗普警告若输掉中期选举恐面临弹劾 xAI完成200亿美元融资 委内瑞拉债券...

1月7日外盘头条:特朗普警告若输掉中期选举恐面临弹劾 xAI完成200亿美元融资 委内瑞拉债券...

新浪财经
2026-01-07 06:00:07
香港警方捣毁一制毒工厂!两名嫌犯仅16岁和18岁

香港警方捣毁一制毒工厂!两名嫌犯仅16岁和18岁

看看新闻Knews
2026-01-08 00:41:06
19岁107天,海文是曼联队史英超打入乌龙球最年轻的球员

19岁107天,海文是曼联队史英超打入乌龙球最年轻的球员

懂球帝
2026-01-08 04:53:20
13胜0负,联盟第1!全联盟都认为你要退役,你却天神下凡屡创神迹

13胜0负,联盟第1!全联盟都认为你要退役,你却天神下凡屡创神迹

毒舌NBA
2026-01-08 01:05:03
哈工大发现:喜欢睡午觉的人,寿命比不睡午觉的人长几年不止?

哈工大发现:喜欢睡午觉的人,寿命比不睡午觉的人长几年不止?

健康之光
2026-01-05 14:22:46
北京男篮坏消息!曝赵睿要长时间缺席,球迷担心的还是发生了

北京男篮坏消息!曝赵睿要长时间缺席,球迷担心的还是发生了

慢歌轻步谣
2026-01-07 13:38:36
八路军6个师长唯有他没有成为元帅,晚年担任副主席,儿子是将军

八路军6个师长唯有他没有成为元帅,晚年担任副主席,儿子是将军

记录百姓故事
2025-11-19 00:08:09
四平市纪委监委最新通报:刘希森被查

四平市纪委监委最新通报:刘希森被查

吉刻新闻
2026-01-07 12:27:53
今冬最冷时间表出炉!1月上旬迎寒潮,今年过年到底冷不冷?

今冬最冷时间表出炉!1月上旬迎寒潮,今年过年到底冷不冷?

复转这些年
2026-01-04 23:52:26
我国现存唯一的人民公社,记工分、分口粮,人均收入5000多

我国现存唯一的人民公社,记工分、分口粮,人均收入5000多

比利
2026-01-06 20:17:17
2026年中国最暴利的生意!!很多人竟然不知道!

2026年中国最暴利的生意!!很多人竟然不知道!

水木然
2026-01-03 22:23:39
论父女关系能不熟到什么程度。父亲:什么时候回来?女儿:我在家

论父女关系能不熟到什么程度。父亲:什么时候回来?女儿:我在家

另子维爱读史
2026-01-06 20:26:55
刘亦菲现身哈尔滨,带火了“东北姨太风”:上半身打麻将,下半身跳芭蕾,美到落泪!

刘亦菲现身哈尔滨,带火了“东北姨太风”:上半身打麻将,下半身跳芭蕾,美到落泪!

谭老师地理大课堂
2026-01-05 21:02:25
演员闫学晶陷舆论争议 儿子首发声:网上所有的回应都不实

演员闫学晶陷舆论争议 儿子首发声:网上所有的回应都不实

红星新闻
2026-01-06 20:18:24
王宁到山西饭店吃饭,内部大的找不到餐厅,饭后结账被价格惊到

王宁到山西饭店吃饭,内部大的找不到餐厅,饭后结账被价格惊到

一娱三分地
2026-01-07 21:22:03
故事:耗资8亿高海南观音像,4年后建造者死在水中,749局介入调查

故事:耗资8亿高海南观音像,4年后建造者死在水中,749局介入调查

涛哥讲堂
2024-09-02 12:31:35
2026-01-08 05:51:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14279文章数 66451关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

艺术
教育
亲子
房产
公开课

艺术要闻

颐和园金光穿洞

教育要闻

QS排名前百学校里,为什么中国留学生更酷爱申这三个?

亲子要闻

雀巢召回多国婴儿配方奶粉,涉及中国市场71个批次

房产要闻

最新!海口二手房,涨价房源突然猛增30%

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版