网易首页 > 网易号 > 正文 申请入驻

坚定地走开源路线,Llama3系列模型及首个Llama3-中文模型和Llama3多模态模型发布

0
分享至

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《》以及《》。

最近Meta正式发布并开源了Llama 3系列模型,本次发布了8B和70B的预训练及指令微调语言模型。Llama-3-8B和Llama-3-8B-Instruct两个模型已经有社区用户发布到了始智AI wisemodel.cn开源社区, 欢迎大家把基于Llama3衍生的模型也发布 到wisemodel上来。wisemodel社区里已有基于预训练版基础上经过SFT微调的Llama3-Chinese-chat-8B,也是目前发布的首个Llama3的中文模型。智源研究院数据智能团队也发布了首个基于Llama3的多模态大模型Bunny-Llama-3-8B-V。

https://wisemodel.cn/models

最近wisemodel社区正在完善体验空间模块的功能,五一前后大家将可以直接在wisemodel社区的体验空间一键确认部署和体验Llama3-8B等系列模型,欢迎大家持续关注wisemodel社区的进展。

Llama 3 的亮点

1、基于超过 15T token 训练,相当于 Llama 2 数据集的 7 倍还多;

2、支持 8K 长文本,改进的 tokenizer 具有 128K token 的词汇量,可实现更好的性能;

3、在大量重要基准中均具有最先进性能;

4、新能力范畴,包括增强的推理和代码能力;

5、训练效率比 Llama 2 高 3 倍;

6、带有 Llama Guard 2、Code Shield 和 CyberSec Eval 2 的新版信任和安全工具。

Llama 3 性能评估

Llama 3 的8B和70B参数大小的模型相较于Llama 2是一个巨大的飞跃,得益于预训练和后训练的改进,预先训练模型和指令微调后的模型是目前存在的8B和70B参数规模下最好的模型,都在同等参数规模的模型上达到SOTA水准。在后训练过程中的改进显著降低了模型的错误拒绝率,改善了模型与人类指令的一致性,并增加了模型响应的多样性,在推理、代码生成和遵循指令等能力方面的大幅提升,使得Llama 3模型更加可控。Llama3-8B instruct模型在MMLU、GPQA、HumanEval等多项基准上均胜过Gemma 7B和Mistral 7B Instruct,Llama3-70B模型也超越了闭源的Claude 3 Sonnet,和谷歌的Gemini Pro 1.5性能相当。

Meta 还开发了一套新的高质量人类评估数据集。该评估集包含 1800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。为了防止 Llama 3 在此评估集上出现过度拟合,Meta 表示他们自己的团队也无法访问该数据集。下图显示了针对 Claude Sonnet、Mistral Medium 和 GPT-3.5 对这些类别和提示进行人工评估的汇总结果。

模型架构

Llama 3 仍然是标准的decode-only的Transformer架构,相比 Llama 2的关键改进主要包括以下几点。首先,Llama 3 使用一个具有 128K 令牌词汇的 tokenizer,该词汇编码语言更高效,从而大幅改善了模型性能。其次,为了提高 Llama 3 模型的推理效率,在 8B 和 70B 大小上都采用了分组查询注意力(GQA)。然后,在 8,192 令牌的序列上训练了模型,并使用掩码来确保自注意力不跨文档边界。

训练数据

为了训练最好的语言模型,管理大型、高质量的训练数据集至关重要。Llama 3 使用超过 15T 的 token 进行了预训练,这些 token 都是从公开来源收集的。总体上讲,Llama 3 的训练数据集是 Llama 2 使用的数据集的七倍多,并且包含四倍多的代码。为了支持多语言需求, Llama 3 预训练数据集中高质量非英语数据超过 5%,涵盖 30 多种语言,Llama 3 在这些语言上的性能水平预计不会与英语相同。

为了确保 Llama 3 接受最高质量数据的训练,团队开发了一系列数据过滤pipeline,包括使用启发式过滤器(filter)、NSFW 过滤器、语义重复数据删除方法和文本分类器来预测数据质量。同时也使用 Llama 2来生成文本质量分类器的训练数据。团队还进行了系列的实验,以评估出在最终预训练数据集中不同来源数据的最佳混合方式,最终确保 Llama 3 在各种用例(包括日常问题、STEM、编码、历史知识等)中表现良好。

规模化预训练

为了在Llama 3模型中有效地利用预训练数据集,团队在大规模预训练方面投入了大量的精力,特别是为下游基准测试评估开发了一系列详细的scaling laws。这些方法对选择最佳的数据混合方案,以及最佳利用训练计算资源等方面有重要帮助。同时,基于这些方法,在实际训练模型之前就可以预测最大模型在关键任务上的性能(例如,在HumanEval基准测试上评估的代码生成能力等)。

在开发Llama 3的过程中,也有一些新的发现。例如,虽然对于8B参数模型来说,Chinchilla最优的训练计算量对应于约200B的token,但在两个数量级的更多数据上训练后,模型性能仍在持续提升。8B和70B参数模型在训练了高达15T个token后,性能仍然以对数线性方式提升。在Llama 3模型的训练过程中,采用了数据并行化、模型并行化和流水线并行化三种并行策略。

通过最高效的实现方式,他用1.6万个GPU同时训练时,每个GPU的计算利用率超过400 TFLOPS。Meta在分别在两个的2.4万个GPU的集群上进行了训练,并通过系列改进使得整体有效训练时间超过了95%。首先,开发了一个先进的新训练堆栈,用于自动化错误检测、处理和维护来提高GPU的有效训练时间。其次,提高了硬件的可靠性和对静默数据损坏的检测机制,并开发了一套新的可扩展存储系统,减少了检查点和回滚的开销。整体上,Llama 3训练的效率相比于Llama 2提高了约三倍。

指令微调

Meta对指令微调方法进行了创新,Llama 3 后训练方法将有监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)几种方法组合到一起。SFT 中使用的 prompt 质量以及 PPO 和 DPO 中使用的偏好排序对模型对齐有着巨大的影响。此次模型质量的最大改进,来自于仔细整理数据以及对人类注释者提供的注释进行多轮质量保证。

通过 PPO 和 DPO 从偏好排序中学习,也极大地提高了 Llama 3 在推理和代码任务上的性能。Meta 发现,如果你向模型提出一个它难以回答的推理问题,该模型有时会产生正确的推理轨迹:模型知道如何产生正确的答案,但不知道如何选择。对偏好排序的训练使模型能够学习如何选择正确答案。

首个Llama3中文模型

ShareAI团队在Llama3发布之后第一时间基于ShareGPT、ruozhiba、zhihu、xiaohongshu等数据集进行SFT微调训练,并已经发布在wisemodel社区。

模型地址

llama3-Chinese-chat-8b:

https://wisemodel.cn/models/shareAI/llama3-Chinese-chat-8b

Meta-Llama-3-8B:

https://wisemodel.cn/models/breadhunter/Meta-Llama-3-8B

Meta-Llama-3-8B-Instruct:

https://wisemodel.cn/models/breadhunter/Meta-Llama-3-8B-Instruct

Bunny-Llama-3-8B-V:

https://wisemodel.cn/models/BAAI/Bunny-Llama-3-8B-V

----- END -----

欢迎加盟

始智AI wisemodel社区自2023年9月上线以来,取得了积极的进展,初步形成一定的影响力,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员(根据个人意向可备注“求职”或“创业”),有意加盟的朋友也可以把简历投递到liudaoquan@wisemodel.cn。

wisemodel相关

系统升级

系列模型:

欢迎投稿

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护。期待更多开发者将开源成果发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,可以申请加入wisemodel社群,持续关注社区动态。

关于始智AI wisemodel.cn开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将努力打造成“HuggingFace”之外最活跃的社区,汇聚主要AI开源模型和数据集等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重磅转会!切尔西后同意加盟曼城,与恩师马雷斯卡再度联手

重磅转会!切尔西后同意加盟曼城,与恩师马雷斯卡再度联手

夜白侃球
2026-06-29 11:29:17
高市坚决反对公主继位,日本天皇被惹怒,要替爱子“清理门户”

高市坚决反对公主继位,日本天皇被惹怒,要替爱子“清理门户”

潋滟晴方DAY
2026-06-29 22:50:34
2026广东高考500分难上公办!41.8万过线家长务必看清

2026广东高考500分难上公办!41.8万过线家长务必看清

鬼菜生活
2026-06-28 15:10:50
打疯了!WTT美国大满贯赛:张本美和11-0"屠杀",蒯曼/早田3-0暴虐

打疯了!WTT美国大满贯赛:张本美和11-0"屠杀",蒯曼/早田3-0暴虐

临云史策
2026-06-29 21:14:40
先击落军机,再炸基地、雷达、港口,炸完后,万斯反劝伊朗打电话

先击落军机,再炸基地、雷达、港口,炸完后,万斯反劝伊朗打电话

小小科普员
2026-06-29 14:22:40
茶叶被发现!医生研究发现:喝得越多,脑梗患者血管或越干净?

茶叶被发现!医生研究发现:喝得越多,脑梗患者血管或越干净?

岐黄传人孙大夫
2026-06-29 17:50:03
一掷千金的“大哥”越来越少!女主播群体从深圳迁到惠州路边帐篷

一掷千金的“大哥”越来越少!女主播群体从深圳迁到惠州路边帐篷

火山詩话
2026-06-29 04:37:21
美的创始人何享健,坐拥2250亿财富无人继承,三个孩子均为老总

美的创始人何享健,坐拥2250亿财富无人继承,三个孩子均为老总

墨印斋
2026-06-29 09:43:17
“我穿的还是长裤”,浙江一女主播还没走出小区门口,就遇到“攻击”…...身上现多处伤痕……

“我穿的还是长裤”,浙江一女主播还没走出小区门口,就遇到“攻击”…...身上现多处伤痕……

新浪财经
2026-06-29 10:42:06
比亚迪新车官宣:6月29日,正式上市!

比亚迪新车官宣:6月29日,正式上市!

科技堡垒
2026-06-27 11:29:21
浙江台州一派出所被曝集体去KTV招异性陪侍,纪委当场抓现行,爆料者:事发两年未通报,仅内部轻微处分

浙江台州一派出所被曝集体去KTV招异性陪侍,纪委当场抓现行,爆料者:事发两年未通报,仅内部轻微处分

大风新闻
2026-06-28 15:27:10
64GB+1TB!新机官宣:6月29日,正式首销

64GB+1TB!新机官宣:6月29日,正式首销

科技堡垒
2026-06-28 12:45:36
2026年基本养老金调整或将启动,江苏退休工龄42年,能涨100吗?

2026年基本养老金调整或将启动,江苏退休工龄42年,能涨100吗?

虎哥闲聊
2026-06-29 11:48:37
记者:切尔西5300万签下拉克鲁瓦,将在未来几天内官宣

记者:切尔西5300万签下拉克鲁瓦,将在未来几天内官宣

懂球帝
2026-06-29 17:05:38
张柏芝胜诉后,公开祝福不再隐瞒和周星驰关系,争议早已真相大白

张柏芝胜诉后,公开祝福不再隐瞒和周星驰关系,争议早已真相大白

蹲坑看世界
2026-06-28 19:16:59
马雅舒庆结婚16周年,外国老公显老胖到200斤,儿女又高又好看

马雅舒庆结婚16周年,外国老公显老胖到200斤,儿女又高又好看

柒佰娱
2026-06-29 11:03:36
总统追责韩国队世界杯出局,或触发FIFA全球禁赛,韩国足球在悬崖狂舞

总统追责韩国队世界杯出局,或触发FIFA全球禁赛,韩国足球在悬崖狂舞

隐于山海
2026-06-29 17:54:30
外网传疯了!中国猪圈已装上空调,欧洲网友集体破防

外网传疯了!中国猪圈已装上空调,欧洲网友集体破防

雷科技
2026-06-29 19:49:19
操控总统、玩弄女星、娶三任妻子:这个韩国最狂财阀有多嚣张?

操控总统、玩弄女星、娶三任妻子:这个韩国最狂财阀有多嚣张?

青梅侃史啊
2026-05-17 19:21:51
输球又输人!世界杯恶意犯规毁天才!西班牙新星含泪控诉乌拉圭

输球又输人!世界杯恶意犯规毁天才!西班牙新星含泪控诉乌拉圭

澜归序
2026-06-29 08:49:09
2026-06-30 00:07:00
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
488文章数 16关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

美从俄乌战场抽身 金灿荣:美国有个大战略目标已完成

头条要闻

美从俄乌战场抽身 金灿荣:美国有个大战略目标已完成

体育要闻

他和伊朗队,再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

万达广场批量易主 多位投资人正式入局

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

旅游
游戏
教育
家居
手机

旅游要闻

“独角牛” 成团宠,影视 IP 为文旅注入 “牛” 动力

打团战还发工资?《天下贰·经典版》补贴狂潮来了!

教育要闻

“六大”扩容“十三大”,到底谁才是真正隐藏的实力派?

家居要闻

传奇筑 日常诗

手机要闻

OPPO Reno16新配色半夏青发布:3D悬浮幸运草设计 3499元起

无障碍浏览 进入关怀版