网易首页 > 网易号 > 正文 申请入驻

Meta AI 挑战 OpenAI!扎克伯格发布最强开源模型Llama 3,最大4000亿参数

0
分享至

大数据文摘受权转载自头部科技

文丨Congerry

Meta 最新开源模型 Llama 3 如约而至。

上周,一位Meta员工透露,两款小型Llama 3模型将于本周发布。

今天,它来了!Meta 在官网官宣开源模型Llama-3系列, Llama 3 8B(80亿参数)和70B(700亿参数)两个版本!

Meta 将 Llama 3 称为有史以来最强的开源大模型!除了这两个版本,扎克伯克透露,Llama 3 最大的4050亿参数的模型仍在训练中。

但是根据Meta的评测,Llama 3 8B(80亿参数)和70B(700亿参数)在广泛的行业基准测试中树立了新的最佳水准,并在推理、问答、代码生成等关键能力上展现出独特优势。

Llama 3 8B 在 MMLU、GPQA、HumanEval等多项基准上的表现超过了谷歌的Gemma 7B 以及 Mistral 7B Instruct。

Llama 3 70B 的表现超过了 Claude 3 Sonnet ,而且和谷歌 Gemini Pro 1.5不分上下。

Meta 表示,通过改进预训练和后训练过程,Llama 3的预训练模型和指令微调模型在8B和70B参数规模上成为了当前最佳的模型。后训练过程的改进显著降低了错误拒绝率,提高了模型的对齐度,并增加了模型响应的多样性。

在开发Llama 3时,Meta不仅关注了模型在标准基准测试上的表现,还评估了Llama 3在现实场景中的性能。

为了评估模型性能,Meta开发了一个包含1800个提示的高质量人类评估集,覆盖了12个关键用例,包括寻求建议、头脑风暴、分类、封闭问题回答、编程、创意写作、信息提取、扮演角色/人物、开放问题回答、推理、重写和总结等。

为了防止模型在评估集上意外过拟合,即使是建模团队也无法访问这个评估集。

结果,Llama 3也击败了Claude 3 Sonnet、Mistral Medium、GPT-3.5、以及前任Llama-2这些模型。

Llama 3的预训练模型同样为相应规模的大模型设定了新的行业标准。在MMLu、AGIEval、BIG-Bench、ARC-Challenge等基准测试中,Llama 3 8B 基本全部领先于 Mistral 7B 以及 Gemma 7B,Llama 3 70B也是如此。

在模型架构方面,Llama 3使用128K token的词汇量,比前代更高效地编码语言,显著提升了模型性能。两个版本均采用了分组注意力(GQA)机制以提升推理效率。

不过 Llama 3的上下文窗口只有8k,相较于动辄数十乃至数百万窗口的大模型相比,显得有些寒酸。

在训练数据上,Llama 3使用了高达15T的公开数据进行预训练,是Llama 2训练数据的7倍,其中包括30多种语言、4倍于之前的代码数据。

而且Meta表示,在开发Llama 3模型的过程中,发现前一代的Llama模型(即Llama 2)在识别高质量数据方面表现出了惊人的能力。因此,利用Llama 2来生成用于训练文本质量分类器的数据,而这些分类器将被用于提升Llama 3模型的性能。

也就是说,Llama 3训练过程中尝试了使用AI生成的数据!

在扩大模型训练规模方面,Meta开发了一系列针对关键基准的放大规律,以指导数据集和算力的最佳配置。

最终的8B和70B模型均在15T tokens数据上持续取得对数级的性能提升。组合数据/模型/流水线等三级并行计算,Meta利用超过16000张GPU实现了超过400T浮点计算量的训练规模。

这些改进使 Llama 3 的训练效率比 Llama 2 提高了约三倍。

在监督微调、拒绝抽样、PPO和DPO等多种技术的指令微调下,Llama 3在推理、代码生成、指令跟随等能力上有了大幅提升,误判率和响应多样性也得到极大改善。多轮的人工质量审查也对模型质量的提升起到关键作用。

不仅模型本身表现出色,Meta还引入了Llama Guard 2、Code Shield、CyberSecEval 2等多个工具,从系统层面保证了Llama 3的可控和安全性,如防范有害内容、不当行为和代码风险等。

接下来,Meta还将推出上文提到的400B参数模型,并加入多模态、长上下文、多语种等更多新能力。不过 Llama 400B参数的模型是否开源还未可知。

除了这些,Meta 此次和大模型一起发布的还有自己的AI助手,Meta AI。

Meta AI由最新的Llama 3模型提供支持,它不仅将被整合到Meta 旗下的 Instagram、WhatsApp、Facebook和Messenger的搜索框中,还将首次以独立网站Meta.ai的形式对外提供服务。

扎克伯格表示,公司的目标是让Meta AI成为“全球人们可以自由使用的最智能的AI助手”。他补充说:“有了Llama 3,我们基本上感觉到我们已经达到了这个目标。”

另外,Llama 3模型还将很快在AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM和Snowflake等平台上可用。

租售GPU算力

租:4090/A800/H800/H100

售:现货H100/H800

特别适合企业级应用

扫码了解详情☝

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
多部门发声痛批赖清德“5·20”讲话

多部门发声痛批赖清德“5·20”讲话

环球网资讯
2026-05-21 06:56:09
广州某设计院亏损数千万元后宣布停工歇业,全员失业了!

广州某设计院亏损数千万元后宣布停工歇业,全员失业了!

黯泉
2026-05-21 15:03:15
“泡药杨梅”被曝光后,当地协会会长哽咽恳求:给果农一个机会,“不要一棍子打死”!当地农户:监管加严,会填写实名保证书

“泡药杨梅”被曝光后,当地协会会长哽咽恳求:给果农一个机会,“不要一棍子打死”!当地农户:监管加严,会填写实名保证书

大风新闻
2026-05-21 08:43:07
外媒:李在明谴责以色列在国际水域扣押韩国公民,抨击以方此举“严重越界”

外媒:李在明谴责以色列在国际水域扣押韩国公民,抨击以方此举“严重越界”

环球网资讯
2026-05-20 16:53:49
足协第三批禁足名单:丁勇、吴静博等17名从业人员终身禁足!

足协第三批禁足名单:丁勇、吴静博等17名从业人员终身禁足!

懂球帝
2026-05-21 15:20:31
上海主帅卢伟指着鼻子狂骂李弘权一幕曝光 情绪激动一度怒拍广告牌

上海主帅卢伟指着鼻子狂骂李弘权一幕曝光 情绪激动一度怒拍广告牌

狼叔评论
2026-05-21 12:30:34
突发!高市早苗疯了!

突发!高市早苗疯了!

财经要参
2026-05-21 09:00:03
三大指数持续回落,均跌超1%

三大指数持续回落,均跌超1%

界面新闻
2026-05-21 14:27:10
杨梅才刚扑街,荔枝又被曝用药!添加剂包装曝光,评论区人心惶惶

杨梅才刚扑街,荔枝又被曝用药!添加剂包装曝光,评论区人心惶惶

谭谈社会
2026-05-21 11:24:12
特朗普回应中俄元首会晤

特朗普回应中俄元首会晤

中国网
2026-05-21 08:55:06
国宴上桌,高层调研:一家民企密集被“看见”,什么信号?

国宴上桌,高层调研:一家民企密集被“看见”,什么信号?

智谷趋势
2026-05-20 17:04:05
“我爱我家”中介加班时发病被诊断主动脉夹层离世,生前最后一次晒娃配文:幸福具象化

“我爱我家”中介加班时发病被诊断主动脉夹层离世,生前最后一次晒娃配文:幸福具象化

潇湘晨报
2026-05-21 14:53:30
以军拦截“全球坚韧船队”画面公布,爱尔兰总统的妹妹遭以军扣留,爱尔兰总统:我很担心她,全球多地抗议以军行径

以军拦截“全球坚韧船队”画面公布,爱尔兰总统的妹妹遭以军扣留,爱尔兰总统:我很担心她,全球多地抗议以军行径

每日经济新闻
2026-05-21 11:17:36
常州多地出现大蛇!

常州多地出现大蛇!

中吴网
2026-05-21 15:08:48
美六州初选,所有川普支持者全部胜出,所有反对川普者全部出局

美六州初选,所有川普支持者全部胜出,所有反对川普者全部出局

壹家言
2026-05-21 08:49:10
泽连斯基很生气!打向基辅的俄导弹,竟能拆出一百多种西方零件!

泽连斯基很生气!打向基辅的俄导弹,竟能拆出一百多种西方零件!

青青子衿
2026-05-18 02:26:44
男篮打成女篮,揪头发拉手手都不吹,为了门票钱肖华拼了

男篮打成女篮,揪头发拉手手都不吹,为了门票钱肖华拼了

兵哥篮球故事
2026-05-21 11:42:53
亏麻了!美国打击伊朗内部“对账单”遭泄露:已烧掉290亿美金,42架战机战损

亏麻了!美国打击伊朗内部“对账单”遭泄露:已烧掉290亿美金,42架战机战损

火锅局
2026-05-21 08:09:55
爆冷1-1!一场丑陋的胜利,文班亚马空砍21+17+6,三大悍将受伤

爆冷1-1!一场丑陋的胜利,文班亚马空砍21+17+6,三大悍将受伤

篮球扫地僧
2026-05-21 11:48:04
“你找媒体,我们就不帮你了”:30多万买的问界,12天增程器坏了

“你找媒体,我们就不帮你了”:30多万买的问界,12天增程器坏了

汉史趣闻
2026-05-21 11:05:32
2026-05-21 15:32:49
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6863文章数 94545关注度
往期回顾 全部

科技要闻

好到离谱也不够!英伟达交出816亿美元营收

头条要闻

小学网购45把雨伞全损退货 记者采访门卫称领导都不在

头条要闻

小学网购45把雨伞全损退货 记者采访门卫称领导都不在

体育要闻

常住人口7000的小镇,拥有了一支德甲球队

娱乐要闻

同行吐槽汪涵野心重 爆雷37万人受损

财经要闻

英伟达业绩超预!指引再新高仍不够亮眼

汽车要闻

26.98万起步 看小鹏GX如何诠释一车多能以及满配的科技与豪华

态度原创

家居
亲子
健康
教育
军事航空

家居要闻

风格碰撞 个性与艺术

亲子要闻

韩国大伯哥被韩国公婆耽误的人生,现在把心思都放在安安佑佑身上

专家:别把PRP当作“自体干细胞”

教育要闻

差点失去美国普渡大学名额!亲赴招生办求情,倾力相助终迎转机!

军事要闻

伊朗警告:任何新袭击将促使战场扩大到中东以外

无障碍浏览 进入关怀版