网易首页 > 网易号 > 正文 申请入驻

Llama 3细节公布!AI产品总监站台讲解:Llama系列超庞大生态系统

0
分享至


新智元报道

编辑:LRS

【新智元导读】除了计算资源和训练数据这些硬实力外,Llama 3模型开源的训练思路覆盖了LLM模型的全部生命周期,提供了各种开源生态系统下的工具。

Llama 3的开源,再次掀起了一场大模型的热战,各家争相测评、对比模型的能力,也有团队在进行微调,开发衍生模型。


最近,Meta的AI产品总监Joe Spisak在Weights & Biases举办的会议上,针对Llama系列模型的历史、Llama 3的训练思路、开源生态系统、安全方面的工作、相关代码库,以及未来的规划进行了详细介绍。

视频链接:https://www.youtube.com/watch?v=r3DC_gjFCSA

视频总结

Llama系列模型发展历史

实际上,早在2023年2月,Meta就组织了一个团队,这个团队集结了公司内从SysML到模型开发、再到数据处理,集结了各个领域中的顶级研究员,还另外聘请了一些创新型的人才。


Llama 2模型在2023年7月份发布,可供商业使用,参数范围从7B到70B,在当时已经算是最先进的成果了;随后在8月和今年1月,Meta发布了Code Llama;12月推出Purple Llama项目,主要关注模型的安全和信任问题。


Llama 3模型介绍

研究人员使用了至少7倍于Llama 2的数据(大约2T个token)来训练Llama 3 模型(超过15T个token);

在微调方面,Llama 2模型的SFT中有一百万条人类标注数据,而在Llama 3中,Meta将微调数据量增加了10倍。


Llama 3还包括了更大的词汇表,一个新的tokenizer,运行效率更高,性能更强,并且上下文窗口也加倍了。

Joe强调,目前发布的其实是Llama 3的非常早期版本,团队原本打算将这些模型称为预发布或预览版本,因为模型并不具有计划中包含的全部功能。


研发团队针对后训练模型(即指令模型),以及基础模型本身都进行了评估,可以看到8B和70B的指令模型都优于同级对比模型,基础模型Llama 3 70B在各方面也都优于Gemini Pro 1.0模型,甚至也优于最近发布的Mistral 8*22B,总之模型的性能表现非常强劲。

Meta团队在人类评估上也做了很多工作,标注了一个包含1800个提示词的数据集,提示词基于真人使用的提示词,覆盖了12个关键的用例。


Meta在GitHub上发布了细节,然后向用户询问模型的表现如何,从实验结果的胜率、平率和负率中可以看到,用户喜欢Llama 3远超Llama 2,也胜过了其他对比模型。

Llama 3背后的开发思路

研发团队在最高层面上考虑的问题主要有四个方面:


模型架构

Llama 3使用的是稠密自回归Transformer,在模型中加入了群组查询注意力(grouped query attention,GQA)机制,又添加了一个新的分词器,团队表示会在即将发布的论文中详细介绍这个问题。

训练数据和计算资源

由于训练过程使用了超过15万亿的token,因此需要大量的计算资源,团队自己搭建了计算集群(两个24k H100 GPU)用于训练模型。

指令微调

虽然大部分研发团队都更喜欢谈论预训练,但实际上模型的效果主要取决于后训练阶段,也是最耗费时间精力的地方。

Meta团队扩大了人工标注SFT数据的规模(1000万),将GPU数量也扩大到了数万个,还采用了诸如拒绝采样、PPO、DPO等技术来尝试在这些模型的可用性、人类特征以及预训练中的大规模数据之间找到平衡。

增强模型的安全性

模型在实用性和安全性之间,必须要进行取舍:Meta团队尝试提高模型的实用性,包括多用途、回答问题的能力、事实上的准确性等,但也需要在安全性方面进行权衡,理解模型在面对诸如完整性类型提示词等情况时的反应。


红队测试在安全领域中也是非常重要的,Meta团队投入了大量的时间,但挑战和标准一直在变化,关于红队看法也在不断改变。


Meta在未来的研究方向是开发出紫色的Llama(融合了红色和蓝色),即红队和蓝队,也就是攻击方和防御方,开发团队从网络安全领域借鉴了命名方式,也是内部网络安全/生成式AI团队的一位科学家提出的。

研究人员希望最大化模型的价值,也体现出了一种独特思维方式:在Llama 2 项目中,Meta构建了非常安全的模型,在模型本身包括微调等方面投入了非常多,但模型经常会过度拒绝某些内容,表现得「过于安全」,虽然可以保证制作的模型非常安全,但同时,研发团队也希望能有一些灵活性,包括输入和输出的保护措施,让用户可以根据需要定制使用方式。


从宏观的角度来看,可以将这个过程看作一个工作流,用户的使用情况会影响到模型的设计和训练:首先需要准备数据来训练模型,然后针对可能导致的不同的风险进行评估。如果发现了一些不理想的地方,再进一步微调模型或采取措施来减轻这些问题。

最后可以将模型部署到如推理阶段,进行提示过滤等工作,涉及到像Llama Guard和Code Shield类似的工具。


团队在去年12月发布的网络安全防护系统Cybersec Eval现在已经进入了第二个版本,功能有了显著的扩展,并且全部开源:可以对提示注入、自动防护冒犯性内容、滥用代码解释器等攻击进行识别。


从结果来看,Llama 3 8B的性能非常出色,在拒绝率和违规率之间都达到了理想的位置;而70B模型更连贯、更聪明,可以发现:模型越强大,违规的可能性就越大,就需要采取缓解措施。


相比之下,Code Llama 70B的拒绝率相当高,可能会让用户感到困扰,也是团队计划在下一代模型中改正的问题。

下面这个图表展现了模型在对抗提示词注入攻击的表现,如重复Token攻击、说服攻击、虚拟化攻击等。


去年12月,团队发布了 Llama Guard v1,基于 Llama 2 7B,在亚马逊SageMaker、Together等多个平台上部署过,包括Databricks,类似于内容审查 API,但用户可以自由定制,而且免费。

最近发布的Llama Guard 2基于 Llama 3,在基准测试中,与GPT-4还是其他一些API相比,该模型都更强,并且公开可用。


Code Shield基本是一个在模型推理过程中用于网络安全的输入输出保护工具,可以过滤大语言模型生成的不安全代码,如过滤「生成网络钓鱼攻击代码」等

许可证

Llama 3在许可证方面没有什么大的变化,可以用于研究和商业用途,可以直接使用,也可以创造一些衍生品,但有一个关于700万每月活跃用户的规定,如果是一个非常大规模的公司来用,需要和Meta进行合作。

开发团队还为品牌制定了一些指导方针,因为有很多公司想要使用Llama,所以需要正确地标示品牌,这些也被写进了许可证。


生态系统

Llama相关的公司非常多,包括硬件供应商,如Nvidia、Intel和Qualcomm,还有各种下游企业和平台提供商。


Llama还有一个庞大的开源社区,开发团队与GGML团队等也有着密切的合作关系,还包括Yarn项目(能够扩展上下文长度)等各式各样的相关开源项目。


其他亮点

torchtune是一个纯粹的PyTorch微调库,可以很容易地对LLM进行微调,没有各种依赖项,支持Llama 3,目前已经与HuggingFace和其他一些库进行了集成。


Github上还有一些Llama 3和Llama的相关资料,有很多入门笔记,LangChain、RAG、提示工程等。


Meta团队也正在训练一个更大的模型Llama 3 400B+,目前只是抓取了4月15日的checkpoint进行了微调后对比:MMLU达到了86.1,GSM-8K达到了 94.1


Llama 3之后

团队想要推出更大更好的模型,支持多种语言:Facebook(FOA)的家庭应用程序已经覆盖了近40亿的用户,多语言对于Llama目标实现的AI场景,以及多模态功能都至关重要,包括在Ray-Ban智能眼镜上实现AI,需要理解周围的一切,不可能仅仅通过文字来实现,所以多模态功能在未来肯定也会推出。


最后,Meta也承诺将持续关注安全问题,将继续开源所有的安全措施,并围绕这些措施建立社区,确保安全性的标准化,并表示一定会坚持下去!

参考资料:

https://www.youtube.com/watch?v=r3DC_gjFCSA&themeRefresh=1


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
冯提莫身材变得“有料”,网友晒出早期照片对比,小身板能支撑吗

冯提莫身材变得“有料”,网友晒出早期照片对比,小身板能支撑吗

兰子记
2024-05-21 16:57:13
事关生育!上海宣布:6月1日起执行

事关生育!上海宣布:6月1日起执行

古装影视解说阿凶
2024-05-21 19:53:38
意媒:橡树基金今天不会有公告 若接管将在25天内召开新股东大会

意媒:橡树基金今天不会有公告 若接管将在25天内召开新股东大会

直播吧
2024-05-22 01:46:10
黑龙江美女医生遭折磨12个小时,多处部位被咬,作案5人预谋已久

黑龙江美女医生遭折磨12个小时,多处部位被咬,作案5人预谋已久

牧愚君
2024-05-06 00:17:56
突然又能打了!辽宁“真核”王者归来,杨鸣将4-0横扫新疆队夺冠

突然又能打了!辽宁“真核”王者归来,杨鸣将4-0横扫新疆队夺冠

绯雨儿
2024-05-21 12:36:14
上年龄不能午睡?提醒:55岁以后,牢记午睡“三不要”

上年龄不能午睡?提醒:55岁以后,牢记午睡“三不要”

通文知史
2024-05-16 19:50:05
乒乓球太原赛:5月22日赛程公布!国乒7人登场,冲击正赛名额

乒乓球太原赛:5月22日赛程公布!国乒7人登场,冲击正赛名额

全言作品
2024-05-22 00:42:21
德国大气,为乌克兰追加38亿欧元军援,还将2025年援助提到150亿

德国大气,为乌克兰追加38亿欧元军援,还将2025年援助提到150亿

山河路口
2024-05-19 19:00:46
22时,郭艾伦深夜发声,喊话新疆,官宣决定,辽篮夺冠奖金或曝光

22时,郭艾伦深夜发声,喊话新疆,官宣决定,辽篮夺冠奖金或曝光

东球弟
2024-05-21 15:58:30
克罗斯为何急流勇退?复刻拉姆齐达内,或再夺2冠,弥补最后遗憾

克罗斯为何急流勇退?复刻拉姆齐达内,或再夺2冠,弥补最后遗憾

奥拜尔
2024-05-21 19:31:10
不到24小时,国米真要易主?张康阳已表态,球迷情绪激动:很开心

不到24小时,国米真要易主?张康阳已表态,球迷情绪激动:很开心

侧身凌空斩
2024-05-21 12:17:08
国家发改委:超长期特别国债资金到位后加快建设首批重大项目

国家发改委:超长期特别国债资金到位后加快建设首批重大项目

南方都市报
2024-05-21 11:32:11
2018年,那个检举男友一家贪腐的女子,两年后,自己也被判刑3年

2018年,那个检举男友一家贪腐的女子,两年后,自己也被判刑3年

可乐86
2024-05-16 09:12:38
【史话】蒋介石说:亡于日本,能为亡国奴;亡于共党,为奴亦不能

【史话】蒋介石说:亡于日本,能为亡国奴;亡于共党,为奴亦不能

年之父
2023-04-27 07:09:23
儿童“患癌”越来越多,这8种食品一定要少吃,家长必看

儿童“患癌”越来越多,这8种食品一定要少吃,家长必看

阿燕姐说育儿
2024-05-21 07:50:03
还不清就易主!意天空:张康阳质押股份达99.6%,其中苏宁68.55%

还不清就易主!意天空:张康阳质押股份达99.6%,其中苏宁68.55%

直播吧
2024-05-21 16:22:52
上午10点!中国女排官宣,新队长谜底揭晓,朱婷安心,袁心玥懂了

上午10点!中国女排官宣,新队长谜底揭晓,朱婷安心,袁心玥懂了

室内设计师阿喇
2024-05-21 17:30:37
印度确认参加乌克兰战争全球和平峰会:成为率先同意参会南方大国

印度确认参加乌克兰战争全球和平峰会:成为率先同意参会南方大国

探索星空
2024-05-21 11:00:07
NBA内部人士:湖人视雷迪克为下一个莱利,先当教练后当球队总裁

NBA内部人士:湖人视雷迪克为下一个莱利,先当教练后当球队总裁

好火子
2024-05-22 05:34:21
凌晨3点,欧联决赛夜!药厂取胜=36年再夺冠军,阿隆索冲52场不败

凌晨3点,欧联决赛夜!药厂取胜=36年再夺冠军,阿隆索冲52场不败

侃球熊弟
2024-05-22 05:20:11
2024-05-22 05:48:49
新智元
新智元
AI产业主平台领航智能+时代
11058文章数 65516关注度
往期回顾 全部

科技要闻

小鹏一季度营收65.5亿,经营亏损16.5亿

头条要闻

美媒:莱希之死基本为小哈梅内伊接替父亲职位铺平道路

头条要闻

美媒:莱希之死基本为小哈梅内伊接替父亲职位铺平道路

体育要闻

兄弟们,为了我,拿下冠军吧!

娱乐要闻

杨洋乔欣聊天记录曝光!还牵扯张天爱

财经要闻

中植系的销售,不退40亿被抓了

汽车要闻

四排八座纯电MPV/续航超过800km 翼真L380开启预订

态度原创

游戏
教育
健康
亲子
手机

PS伦敦工作室发文告别:我们经历了疯狂而美妙的旅程

教育要闻

使用判别式法求最大值问题,这方法很好用,考试前复习

在中国,到底哪些人在吃“伟哥”?

亲子要闻

坐月子这件事很重要,所以十多年,她一直为此操劳

手机要闻

618过后Redmi K70至尊版登场:新一代天玑之王蓄势待发

无障碍浏览 进入关怀版