网易首页 > 网易号 > 正文 申请入驻

坚定地走开源路线,Llama3系列模型及首个Llama3-中文模型和Llama3多模态模型发布

0
分享至

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《》以及《》。

最近Meta正式发布并开源了Llama 3系列模型,本次发布了8B和70B的预训练及指令微调语言模型。Llama-3-8B和Llama-3-8B-Instruct两个模型已经有社区用户发布到了始智AI wisemodel.cn开源社区, 欢迎大家把基于Llama3衍生的模型也发布 到wisemodel上来。wisemodel社区里已有基于预训练版基础上经过SFT微调的Llama3-Chinese-chat-8B,也是目前发布的首个Llama3的中文模型。智源研究院数据智能团队也发布了首个基于Llama3的多模态大模型Bunny-Llama-3-8B-V。

https://wisemodel.cn/models

最近wisemodel社区正在完善体验空间模块的功能,五一前后大家将可以直接在wisemodel社区的体验空间一键确认部署和体验Llama3-8B等系列模型,欢迎大家持续关注wisemodel社区的进展。

Llama 3 的亮点

1、基于超过 15T token 训练,相当于 Llama 2 数据集的 7 倍还多;

2、支持 8K 长文本,改进的 tokenizer 具有 128K token 的词汇量,可实现更好的性能;

3、在大量重要基准中均具有最先进性能;

4、新能力范畴,包括增强的推理和代码能力;

5、训练效率比 Llama 2 高 3 倍;

6、带有 Llama Guard 2、Code Shield 和 CyberSec Eval 2 的新版信任和安全工具。

Llama 3 性能评估

Llama 3 的8B和70B参数大小的模型相较于Llama 2是一个巨大的飞跃,得益于预训练和后训练的改进,预先训练模型和指令微调后的模型是目前存在的8B和70B参数规模下最好的模型,都在同等参数规模的模型上达到SOTA水准。在后训练过程中的改进显著降低了模型的错误拒绝率,改善了模型与人类指令的一致性,并增加了模型响应的多样性,在推理、代码生成和遵循指令等能力方面的大幅提升,使得Llama 3模型更加可控。Llama3-8B instruct模型在MMLU、GPQA、HumanEval等多项基准上均胜过Gemma 7B和Mistral 7B Instruct,Llama3-70B模型也超越了闭源的Claude 3 Sonnet,和谷歌的Gemini Pro 1.5性能相当。

Meta 还开发了一套新的高质量人类评估数据集。该评估集包含 1800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。为了防止 Llama 3 在此评估集上出现过度拟合,Meta 表示他们自己的团队也无法访问该数据集。下图显示了针对 Claude Sonnet、Mistral Medium 和 GPT-3.5 对这些类别和提示进行人工评估的汇总结果。

模型架构

Llama 3 仍然是标准的decode-only的Transformer架构,相比 Llama 2的关键改进主要包括以下几点。首先,Llama 3 使用一个具有 128K 令牌词汇的 tokenizer,该词汇编码语言更高效,从而大幅改善了模型性能。其次,为了提高 Llama 3 模型的推理效率,在 8B 和 70B 大小上都采用了分组查询注意力(GQA)。然后,在 8,192 令牌的序列上训练了模型,并使用掩码来确保自注意力不跨文档边界。

训练数据

为了训练最好的语言模型,管理大型、高质量的训练数据集至关重要。Llama 3 使用超过 15T 的 token 进行了预训练,这些 token 都是从公开来源收集的。总体上讲,Llama 3 的训练数据集是 Llama 2 使用的数据集的七倍多,并且包含四倍多的代码。为了支持多语言需求, Llama 3 预训练数据集中高质量非英语数据超过 5%,涵盖 30 多种语言,Llama 3 在这些语言上的性能水平预计不会与英语相同。

为了确保 Llama 3 接受最高质量数据的训练,团队开发了一系列数据过滤pipeline,包括使用启发式过滤器(filter)、NSFW 过滤器、语义重复数据删除方法和文本分类器来预测数据质量。同时也使用 Llama 2来生成文本质量分类器的训练数据。团队还进行了系列的实验,以评估出在最终预训练数据集中不同来源数据的最佳混合方式,最终确保 Llama 3 在各种用例(包括日常问题、STEM、编码、历史知识等)中表现良好。

规模化预训练

为了在Llama 3模型中有效地利用预训练数据集,团队在大规模预训练方面投入了大量的精力,特别是为下游基准测试评估开发了一系列详细的scaling laws。这些方法对选择最佳的数据混合方案,以及最佳利用训练计算资源等方面有重要帮助。同时,基于这些方法,在实际训练模型之前就可以预测最大模型在关键任务上的性能(例如,在HumanEval基准测试上评估的代码生成能力等)。

在开发Llama 3的过程中,也有一些新的发现。例如,虽然对于8B参数模型来说,Chinchilla最优的训练计算量对应于约200B的token,但在两个数量级的更多数据上训练后,模型性能仍在持续提升。8B和70B参数模型在训练了高达15T个token后,性能仍然以对数线性方式提升。在Llama 3模型的训练过程中,采用了数据并行化、模型并行化和流水线并行化三种并行策略。

通过最高效的实现方式,他用1.6万个GPU同时训练时,每个GPU的计算利用率超过400 TFLOPS。Meta在分别在两个的2.4万个GPU的集群上进行了训练,并通过系列改进使得整体有效训练时间超过了95%。首先,开发了一个先进的新训练堆栈,用于自动化错误检测、处理和维护来提高GPU的有效训练时间。其次,提高了硬件的可靠性和对静默数据损坏的检测机制,并开发了一套新的可扩展存储系统,减少了检查点和回滚的开销。整体上,Llama 3训练的效率相比于Llama 2提高了约三倍。

指令微调

Meta对指令微调方法进行了创新,Llama 3 后训练方法将有监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)几种方法组合到一起。SFT 中使用的 prompt 质量以及 PPO 和 DPO 中使用的偏好排序对模型对齐有着巨大的影响。此次模型质量的最大改进,来自于仔细整理数据以及对人类注释者提供的注释进行多轮质量保证。

通过 PPO 和 DPO 从偏好排序中学习,也极大地提高了 Llama 3 在推理和代码任务上的性能。Meta 发现,如果你向模型提出一个它难以回答的推理问题,该模型有时会产生正确的推理轨迹:模型知道如何产生正确的答案,但不知道如何选择。对偏好排序的训练使模型能够学习如何选择正确答案。

首个Llama3中文模型

ShareAI团队在Llama3发布之后第一时间基于ShareGPT、ruozhiba、zhihu、xiaohongshu等数据集进行SFT微调训练,并已经发布在wisemodel社区。

模型地址

llama3-Chinese-chat-8b:

https://wisemodel.cn/models/shareAI/llama3-Chinese-chat-8b

Meta-Llama-3-8B:

https://wisemodel.cn/models/breadhunter/Meta-Llama-3-8B

Meta-Llama-3-8B-Instruct:

https://wisemodel.cn/models/breadhunter/Meta-Llama-3-8B-Instruct

Bunny-Llama-3-8B-V:

https://wisemodel.cn/models/BAAI/Bunny-Llama-3-8B-V

----- END -----

欢迎加盟

始智AI wisemodel社区自2023年9月上线以来,取得了积极的进展,初步形成一定的影响力,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员(根据个人意向可备注“求职”或“创业”),有意加盟的朋友也可以把简历投递到liudaoquan@wisemodel.cn。

wisemodel相关

系统升级

系列模型:

欢迎投稿

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护。期待更多开发者将开源成果发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,可以申请加入wisemodel社群,持续关注社区动态。

关于始智AI wisemodel.cn开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将努力打造成“HuggingFace”之外最活跃的社区,汇聚主要AI开源模型和数据集等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国关闭GPS,导弹依旧精准轰炸以色列,谁干的?中国还是俄罗斯

美国关闭GPS,导弹依旧精准轰炸以色列,谁干的?中国还是俄罗斯

高山非凡创作
2024-05-09 05:48:13
荷兰半导体专家:ASML花费40年钻研光刻机,中国企业竟比ASML还狠

荷兰半导体专家:ASML花费40年钻研光刻机,中国企业竟比ASML还狠

策略述
2026-02-28 17:11:40
2026 年有线电视全国一网推进!收费涨吗?机顶盒换吗?4 大变化

2026 年有线电视全国一网推进!收费涨吗?机顶盒换吗?4 大变化

生活不过如此呀
2026-03-01 00:00:05
价格战再次打响!问界“降”7万,零跑4.6万!

价格战再次打响!问界“降”7万,零跑4.6万!

电动知家
2026-02-28 19:59:59
海边的泫雅,这“身材”谁都要多看两眼

海边的泫雅,这“身材”谁都要多看两眼

东方不败然多多
2026-02-28 21:01:38
吴石到死都不知道,他拼了命送出去的那些情报,最后是怎么上岸的

吴石到死都不知道,他拼了命送出去的那些情报,最后是怎么上岸的

搜史君
2026-02-28 22:45:03
女子回湖北婆家过年,车被妯娌砸稀烂,报警后绝不和解,结局爽了

女子回湖北婆家过年,车被妯娌砸稀烂,报警后绝不和解,结局爽了

离离言几许
2026-02-27 21:13:58
李小璐的新瓜,信息量有点大啊…

李小璐的新瓜,信息量有点大啊…

二胡的岁月如歌
2026-02-26 14:06:05
今日黄金大盘价(2026年2月28日),实时金价更新,一克多少钱快速知晓

今日黄金大盘价(2026年2月28日),实时金价更新,一克多少钱快速知晓

蓝色海边
2026-03-01 00:19:45
给央视卖命19年,连站6年零下几十度春晚分会场,撒贝宁没他微信

给央视卖命19年,连站6年零下几十度春晚分会场,撒贝宁没他微信

百态人间
2026-02-28 15:31:33
34岁评上副教授,直接躺平15年!山东一教师自曝生活状态,引争议

34岁评上副教授,直接躺平15年!山东一教师自曝生活状态,引争议

火山詩话
2026-02-27 09:09:49
哈梅内伊将就美以袭击发表讲话

哈梅内伊将就美以袭击发表讲话

财联社
2026-02-28 23:05:07
米哈游程序员复工当晚猝死,官方辟谣3万补贴,家属控诉仍未平息

米哈游程序员复工当晚猝死,官方辟谣3万补贴,家属控诉仍未平息

魏家东
2026-02-28 00:05:06
伊朗遭空袭,哈梅内伊遇害,遗体照片被展示给内塔尼亚胡

伊朗遭空袭,哈梅内伊遇害,遗体照片被展示给内塔尼亚胡

译言
2026-03-01 05:21:17
詹俊:曼城赢得惊险,塞门约和格伊两名冬窗新援太重要了

詹俊:曼城赢得惊险,塞门约和格伊两名冬窗新援太重要了

懂球帝
2026-03-01 05:00:15
940亿订单白签?默茨访华携大礼回国,转头德副总理公然抹黑中国

940亿订单白签?默茨访华携大礼回国,转头德副总理公然抹黑中国

东极妙严
2026-02-28 12:57:12
新加坡大满贯!蒯曼输了比赛,不敢抬头看马琳,不敢对视!

新加坡大满贯!蒯曼输了比赛,不敢抬头看马琳,不敢对视!

萧狡科普解说
2026-02-28 19:05:06
中东再燃战火,这三个板块大概率会火

中东再燃战火,这三个板块大概率会火

数据方向
2026-02-28 20:24:14
比亚迪秦PLUS最强金融政策发布:首付 2.98 万起,提供 3 年 0 息、7 年低息方案

比亚迪秦PLUS最强金融政策发布:首付 2.98 万起,提供 3 年 0 息、7 年低息方案

驱动中国
2026-02-28 18:59:05
长餐桌已经退出中国家庭,学浙江人的做法,很多人都开始纷纷效仿

长餐桌已经退出中国家庭,学浙江人的做法,很多人都开始纷纷效仿

室内设计师有料儿
2026-02-27 20:49:11
2026-03-01 06:55:00
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
458文章数 14关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

以官员称哈梅内伊身亡 遗体在其官邸废墟中被找到

头条要闻

以官员称哈梅内伊身亡 遗体在其官邸废墟中被找到

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

周杰伦儿子正面照曝光,与父亲好像

财经要闻

冲突爆发 市场变天?

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

教育
房产
手机
家居
公开课

教育要闻

又看了一遍…觉得这册子真的太牛了…

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

手机要闻

小米17 Ultra徕卡海外版发布,竟卖1999欧元!

家居要闻

素色肌理 品意式格调

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版