网易首页 > 网易号 > 正文 申请入驻

Meta AI 挑战 OpenAI!扎克伯格发布最强开源模型Llama 3,最大4000亿参数

0
分享至


大数据文摘受权转载自头部科技

文丨Congerry

Meta 最新开源模型 Llama 3 如约而至。

上周,一位Meta员工透露,两款小型Llama 3模型将于本周发布。

今天,它来了!Meta 在官网官宣开源模型Llama-3系列, Llama 3 8B(80亿参数)和70B(700亿参数)两个版本!

Meta 将 Llama 3 称为有史以来最强的开源大模型!除了这两个版本,扎克伯克透露,Llama 3 最大的4050亿参数的模型仍在训练中。


但是根据Meta的评测,Llama 3 8B(80亿参数)和70B(700亿参数)在广泛的行业基准测试中树立了新的最佳水准,并在推理、问答、代码生成等关键能力上展现出独特优势。

Llama 3 8B 在 MMLU、GPQA、HumanEval等多项基准上的表现超过了谷歌的Gemma 7B 以及 Mistral 7B Instruct。

Llama 3 70B 的表现超过了 Claude 3 Sonnet ,而且和谷歌 Gemini Pro 1.5不分上下。


Meta 表示,通过改进预训练和后训练过程,Llama 3的预训练模型和指令微调模型在8B和70B参数规模上成为了当前最佳的模型。后训练过程的改进显著降低了错误拒绝率,提高了模型的对齐度,并增加了模型响应的多样性。

在开发Llama 3时,Meta不仅关注了模型在标准基准测试上的表现,还评估了Llama 3在现实场景中的性能。

为了评估模型性能,Meta开发了一个包含1800个提示的高质量人类评估集,覆盖了12个关键用例,包括寻求建议、头脑风暴、分类、封闭问题回答、编程、创意写作、信息提取、扮演角色/人物、开放问题回答、推理、重写和总结等。

为了防止模型在评估集上意外过拟合,即使是建模团队也无法访问这个评估集。

结果,Llama 3也击败了Claude 3 Sonnet、Mistral Medium、GPT-3.5、以及前任Llama-2这些模型。


Llama 3的预训练模型同样为相应规模的大模型设定了新的行业标准。在MMLu、AGIEval、BIG-Bench、ARC-Challenge等基准测试中,Llama 3 8B 基本全部领先于 Mistral 7B 以及 Gemma 7B,Llama 3 70B也是如此。


在模型架构方面,Llama 3使用128K token的词汇量,比前代更高效地编码语言,显著提升了模型性能。两个版本均采用了分组注意力(GQA)机制以提升推理效率。

不过 Llama 3的上下文窗口只有8k,相较于动辄数十乃至数百万窗口的大模型相比,显得有些寒酸。

在训练数据上,Llama 3使用了高达15T的公开数据进行预训练,是Llama 2训练数据的7倍,其中包括30多种语言、4倍于之前的代码数据。

而且Meta表示,在开发Llama 3模型的过程中,发现前一代的Llama模型(即Llama 2)在识别高质量数据方面表现出了惊人的能力。因此,利用Llama 2来生成用于训练文本质量分类器的数据,而这些分类器将被用于提升Llama 3模型的性能。

也就是说,Llama 3训练过程中尝试了使用AI生成的数据!

在扩大模型训练规模方面,Meta开发了一系列针对关键基准的放大规律,以指导数据集和算力的最佳配置。

最终的8B和70B模型均在15T tokens数据上持续取得对数级的性能提升。组合数据/模型/流水线等三级并行计算,Meta利用超过16000张GPU实现了超过400T浮点计算量的训练规模。

这些改进使 Llama 3 的训练效率比 Llama 2 提高了约三倍。

在监督微调、拒绝抽样、PPO和DPO等多种技术的指令微调下,Llama 3在推理、代码生成、指令跟随等能力上有了大幅提升,误判率和响应多样性也得到极大改善。多轮的人工质量审查也对模型质量的提升起到关键作用。

不仅模型本身表现出色,Meta还引入了Llama Guard 2、Code Shield、CyberSecEval 2等多个工具,从系统层面保证了Llama 3的可控和安全性,如防范有害内容、不当行为和代码风险等。

接下来,Meta还将推出上文提到的400B参数模型,并加入多模态、长上下文、多语种等更多新能力。不过 Llama 400B参数的模型是否开源还未可知。

除了这些,Meta 此次和大模型一起发布的还有自己的AI助手,Meta AI。

Meta AI由最新的Llama 3模型提供支持,它不仅将被整合到Meta 旗下的 Instagram、WhatsApp、Facebook和Messenger的搜索框中,还将首次以独立网站Meta.ai的形式对外提供服务。


扎克伯格表示,公司的目标是让Meta AI成为“全球人们可以自由使用的最智能的AI助手”。他补充说:“有了Llama 3,我们基本上感觉到我们已经达到了这个目标。”

另外,Llama 3模型还将很快在AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM和Snowflake等平台上可用。

租售GPU算力

租:4090/A800/H800/H100

售:现货H100/H800

特别适合企业级应用

扫码了解详情☝


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曝断眉被退货!湖南台关闭评论暂停宣传,本人连夜删除发声

曝断眉被退货!湖南台关闭评论暂停宣传,本人连夜删除发声

萌神木木
2024-06-04 17:44:14
明查|这是显示美军“艾森豪威尔”号航母被袭击的视频和图片?

明查|这是显示美军“艾森豪威尔”号航母被袭击的视频和图片?

澎湃新闻
2024-06-04 07:14:52
真的LOW!杭州漫展低劣coser模拟科比坠机身亡,多人围观无人制止

真的LOW!杭州漫展低劣coser模拟科比坠机身亡,多人围观无人制止

猫小狸同学
2024-06-03 16:13:35
俄控工厂遭乌“海马斯”火箭炮袭击

俄控工厂遭乌“海马斯”火箭炮袭击

参考消息
2024-06-04 20:22:21
33岁刘翔再刷屏!肌肉炸裂,还撩走性感女私教!这样的人生我服了....

33岁刘翔再刷屏!肌肉炸裂,还撩走性感女私教!这样的人生我服了....

健身S叔
2024-05-04 14:37:27
森林北陪汪峰过儿童节!穿镂空休闲上衣配小白裤,真是又美又飒

森林北陪汪峰过儿童节!穿镂空休闲上衣配小白裤,真是又美又飒

点点细语
2024-06-02 22:25:40
中年失业人数哪有那么夸张?网友:刚问了我同事,他们都说有工作

中年失业人数哪有那么夸张?网友:刚问了我同事,他们都说有工作

暖心的小屋
2024-06-04 20:22:31
女子商场暴打丈夫后续:知情人爆出内幕 打架原因曝光 果然有情况

女子商场暴打丈夫后续:知情人爆出内幕 打架原因曝光 果然有情况

鋭娱之乐
2024-06-03 23:25:05
名校校长的"后宫":88名女教师,霸占87人?!

名校校长的"后宫":88名女教师,霸占87人?!

北国向锡安
2024-05-11 09:55:37
笑了,下调中国信用评级?美国国债即将迈入40万亿美元

笑了,下调中国信用评级?美国国债即将迈入40万亿美元

龙哥影视大世界呀
2024-06-05 02:14:55
毛主席在听聂荣臻做报告,突然得知罗荣桓逝世,会场瞬间一片哭声

毛主席在听聂荣臻做报告,突然得知罗荣桓逝世,会场瞬间一片哭声

小金鱼的眼泪
2024-06-05 09:22:00
外媒:拜登最新表态称他对乌克兰和平愿景并不一定是让其加入北约

外媒:拜登最新表态称他对乌克兰和平愿景并不一定是让其加入北约

环球网资讯
2024-06-05 08:49:10
歼-20首席试飞员证实:解放军真正的六代机要来了!会是质的飞跃

歼-20首席试飞员证实:解放军真正的六代机要来了!会是质的飞跃

杜文龙
2024-06-03 22:50:02
日本女排战胜中国后,日本著名排球评论家山本隆弘说出了不同看法

日本女排战胜中国后,日本著名排球评论家山本隆弘说出了不同看法

祝晓塬
2024-06-04 21:16:13
引起热议,“难道以前我们红领巾都系错了吗”

引起热议,“难道以前我们红领巾都系错了吗”

一口娱乐
2024-06-04 21:35:11
董宇辉卖铁锅,和网友吵得不可开交,据说有人牙都笑掉了?

董宇辉卖铁锅,和网友吵得不可开交,据说有人牙都笑掉了?

糖逗在娱乐
2024-06-04 16:59:29
海贼王1117话情报:果然:卡普战死,战国和阿鹤中将抢回尸体

海贼王1117话情报:果然:卡普战死,战国和阿鹤中将抢回尸体

清漪动漫
2024-06-04 16:33:08
解放战争中,如果国民党获得胜利,今天的中国会是什么样

解放战争中,如果国民党获得胜利,今天的中国会是什么样

史诗长歌
2024-05-13 13:34:32
曾跟章子怡“叠罗汉”的未婚夫Vivi,现身默多克婚礼瘦成植物人

曾跟章子怡“叠罗汉”的未婚夫Vivi,现身默多克婚礼瘦成植物人

麦小柒
2024-06-04 14:57:55
女子在深圳买套房,遗忘28年后想起,房子已被人住了20年

女子在深圳买套房,遗忘28年后想起,房子已被人住了20年

一度历史观
2024-05-25 12:54:45
2024-06-05 11:12:49
大数据文摘
大数据文摘
专注大数据,每日有分享!
6258文章数 94264关注度
往期回顾 全部

科技要闻

马斯克把特斯拉5亿美元AI芯片提前调拨给X

头条要闻

小区起火男子被困9楼阳台 体力不支坠落砸晕救援人员

头条要闻

小区起火男子被困9楼阳台 体力不支坠落砸晕救援人员

体育要闻

赴美试训的崔永熙,表现究竟怎么样?

娱乐要闻

《青春有你》胡文煊被曝孕期出轨

财经要闻

欧盟推迟对华行动,如何理解?

汽车要闻

又一个水桶车 试驾新“卷王”极狐阿尔法S5

态度原创

数码
家居
旅游
教育
公开课

数码要闻

观看 WWDC 2024 视频直播的入口已公布

家居要闻

温室余闲 平仄之间雅趣浓

旅游要闻

一女子从家到机场仅10分钟却没赶上飞机 愤而投诉

教育要闻

高三老师走廊“摆摊”为考生解疑答惑

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版