网易首页 > 网易号 > 正文 申请入驻

泄露的基准测试表明Meta Llama 3.1 405B模型的性能可能超过OpenAI GPT-4o

0
分享至

2024 年 4 月,Meta 推出了新一代最先进的开源大型语言模型Llama 3。前两个模型 Llama 3 8B 和 Llama 3 70B为同类规模的 LLM 树立了新的基准。然而,在短短三个月内,其他几个 LLM 的性能已经超过了它们。

Meta 已经透露,其最大的 Llama 3 型号将拥有超过 4000 亿个参数,目前仍在训练中。今天,LocalLLaMA 子论坛泄露了即将推出的 Llama 3.1 8B、70B 和 405B 模型的早期基准测试结果。泄露的数据表明,Meta Llama 3.1 405B 可以在几个关键的人工智能基准测试中超越目前的领先者 OpenAI 的 GPT-4o。这对开源人工智能社区来说是一个重要的里程碑,标志着开源模型可能首次击败目前最先进的闭源 LLM 模型。

Meta 在"Llama 3"发布会上表示:

我们致力于开放式人工智能生态系统的持续增长和发展,以负责任的方式发布我们的模型。我们一直坚信,开放会带来更好、更安全的产品、更快的创新和更健康的整体市场。这对 Meta 有利,对社会也有利。

如基准测试所示,Meta Llama 3.1 在 GSM8K、Hellaswag、boolq、MMLU-humanities、MMLU-other、MMLU-stem 和 winograd 等多项测试中均优于 GPT-4。但是,它在 HumanEval 和 MMLU-social sciences 方面却落后于 GPT-4。

值得注意的是,这些数据来自 Llama 3.1 的基本模型。要充分释放模型的潜力,对其进行教学调整非常重要。随着 Llama 3.1 模型指令版本的发布,其中许多结果可能会有所改善。

尽管 OpenAI 即将推出的 GPT-5 预计将具备先进的推理能力,可能会挑战 Llama 3.1 在 LLM 领域的潜在领导地位,但 Llama 3.1 在 GPT-4o 中的强劲表现仍然彰显了开源人工智能开发的力量和潜力。这种持续的进步可能会使获取尖端人工智能技术的途径更加民主化,并加速技术行业的创新。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全网群嘲的玫瑰空调卖爆了,网友惊呆了!

全网群嘲的玫瑰空调卖爆了,网友惊呆了!

广告案例精选
2026-06-30 08:40:54
麻烦大了!短短24小时韩红再遭重挫,惊动官方机构,被圈内人士暗示名誉难保

麻烦大了!短短24小时韩红再遭重挫,惊动官方机构,被圈内人士暗示名誉难保

老吴教育课堂
2026-07-01 01:00:23
“签单陪你睡!”女业务员献身客户,半年后被约,拼命逃出报警

“签单陪你睡!”女业务员献身客户,半年后被约,拼命逃出报警

一丝不苟的法律人
2026-06-27 14:59:29
小玥儿毕业只邀小菲奶奶,徐家半小时车程落空

小玥儿毕业只邀小菲奶奶,徐家半小时车程落空

音乐时光的娱乐
2026-07-01 08:07:57
含金量满满!外资涌入,加仓中国!

含金量满满!外资涌入,加仓中国!

环球网资讯
2026-07-01 09:12:04
入选国少!前足球小将核心父亲示好 董路:永远不原谅你 原因曝光

入选国少!前足球小将核心父亲示好 董路:永远不原谅你 原因曝光

念洲
2026-06-29 20:03:23
出现1:3局面,中国台东执法遭围攻,英国带头发难,中方强势反击

出现1:3局面,中国台东执法遭围攻,英国带头发难,中方强势反击

阿离家居
2026-06-30 18:00:30
泰国“租妻”生意撕开芭提雅夜生活,伊善女儿与外籍男性的交易链

泰国“租妻”生意撕开芭提雅夜生活,伊善女儿与外籍男性的交易链

陆弃
2026-06-30 10:52:15
美国大满贯大冷门!王曼昱不敌佐藤瞳,三输日本选手,马琳引争议

美国大满贯大冷门!王曼昱不敌佐藤瞳,三输日本选手,马琳引争议

阿衃体育
2026-07-01 09:56:40
今晚开播!张嘉益董洁领衔年代大剧,天津卫视黄金档这部剧要火!

今晚开播!张嘉益董洁领衔年代大剧,天津卫视黄金档这部剧要火!

喜欢历史的阿繁
2026-07-01 10:11:45
统治级完胜!姆巴佩双响封神,满格冠军相的法国无人可挡

统治级完胜!姆巴佩双响封神,满格冠军相的法国无人可挡

狮王乱弹
2026-07-01 11:41:46
学医后才知道,骨质疏松最危险的信号,不是腰疼,而是这5种症状

学医后才知道,骨质疏松最危险的信号,不是腰疼,而是这5种症状

岐黄传人孙大夫
2026-06-19 21:20:03
欧洲人热得开始骂体制了

欧洲人热得开始骂体制了

雷斯林
2026-06-30 15:41:22
韩红基金会回应“韩红宣布退出公益行业”:网传的朋友圈截图是不实信息,目前韩红正在参与百人援蒙的义诊活动

韩红基金会回应“韩红宣布退出公益行业”:网传的朋友圈截图是不实信息,目前韩红正在参与百人援蒙的义诊活动

鲁中晨报
2026-06-30 15:38:37
1988年师长李德金开会路上被当场控制,全方位搜身后找到一串钥匙

1988年师长李德金开会路上被当场控制,全方位搜身后找到一串钥匙

磊子讲史
2026-06-23 14:10:47
印度塔塔泄密丑闻:iPhone18 Pro供应商清单、照片遭偷跑

印度塔塔泄密丑闻:iPhone18 Pro供应商清单、照片遭偷跑

菁菁子衿
2026-06-30 19:54:28
《塞尔达传说:黄昏公主》或以“增强版”形式登陆Switch2

《塞尔达传说:黄昏公主》或以“增强版”形式登陆Switch2

电玩迷
2026-06-30 19:30:49
范霍伊东克:罚点球的花招令我作呕,摩洛哥比荷兰高两个档次

范霍伊东克:罚点球的花招令我作呕,摩洛哥比荷兰高两个档次

懂球帝
2026-06-30 13:08:10
哈兰德实话说:我真踢不动加时赛了;挪威对阵巴西胜算极其渺茫!

哈兰德实话说:我真踢不动加时赛了;挪威对阵巴西胜算极其渺茫!

凡知
2026-07-01 11:11:04
为什么往死里扫黄?网友分享太真实了,一次说透

为什么往死里扫黄?网友分享太真实了,一次说透

另子维爱读史
2026-05-27 20:16:03
2026-07-01 12:31:00
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
68970文章数 70223关注度
往期回顾 全部

科技要闻

美国放行,Anthropic两款顶级模型将恢复

头条要闻

老人获帮助后车祸去世 孙子:视频里他笑得合不拢嘴

头条要闻

老人获帮助后车祸去世 孙子:视频里他笑得合不拢嘴

体育要闻

德国足球,脸都不要了

娱乐要闻

罗晋大孤山素颜照,秃顶白发引热议

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

旅游
房产
游戏
健康
军事航空

旅游要闻

内蒙古呼和浩特:塞上老街夜未央

房产要闻

突发!万亿资本巨头,悄悄杀入海棠湾!

魔兽世界:WLK25人奥杜尔最无争议的5大极品,你觉得还有哪些?

狂吃“糯叽叽”小心肠梗阻!

军事要闻

以色列防长:穆杰塔巴已被列入死亡名单

无障碍浏览 进入关怀版