网易首页 > 网易号 > 正文 申请入驻

未来属于开源or闭源?LLAMA-3模型的演进与开闭源之争

0
分享至

文章来源:张俊林

LLAMA-3 的发布是大模型开源届的大事,蹭下热度,在这里谈下有关 LLAMA-3、大模型开源与闭源以及合成数据的一些个人看法。

一、LLAMA-3 的基本情况

模型结构与 LLAMA-2 相比没有大的变动,主要变化一点在于 Token 词典从 LLAMA-2 的 32K 拓展到了128K,以增加编码效率;另外一点是引入了 Grouped Query Attention (GQA),这可以减少推理过程中的KV缓存大小,增加推理效率;还有一点是输入上下文长度从 4K 拓展到了 8K,这个长度相比竞品来说仍然有点短。

最重要的改变是训练数据量的极大扩充,从 LLAMA-2 的 2T Tokens,扩展了大约 8 倍到了 15T Tokens,其中代码数据扩充了 4 倍,这导致 LLAMA-3 在代码能力和逻辑推理能力的大幅度提升。15 T token 数据那是相当之大了,传闻中 GPT 4 是用了 13T 的 Token 数据。

LLAMA-3 分为大中小三个版本,小模型参数规模 8B,效果比 Mistral 7B/Gemma 7B 略好基本持平;中等模型参数规模 70B,目前效果介于 ChatGPT 3.5 到 GPT 4 之间;大模型 400B,仍在训练过程中,设计目标是多模态、多语言版本的,估计效果应与 GPT 4/GPT 4V 基本持平,否则估计 Meta 也不好意思放出来。

LLAMA-3 并未如很多人预期的那样,采取 MOE 结构,这也很正常。MOE 的主要作用是降低模型训练及推理成本,从效果上比较的话,同等规模的 MOE 是肯定干不过 Dense 模型的。当然,如果模型规模大了,怎么降低推理成本方面可能要多花心思。

感觉 LLAMA-3 制作 8B 模型的思路是非常非常正确的。对于小模型来说,如果你固定住模型大小,那么只要持续增加高质量数据,那么模型效果肯定会持续提升,这个其实从 2021 年发表的 Chinchilla law 的论文就能得到这个结论。一般模型大小乘以 20,就是 Chinchilla law 对应的最优训练数据量,比如对于 8B 模型,160B 训练数据对应最优 Scaling law。但是,我们不能机械地理解和应用 Scaling law,从 Chinchilla 的论文实验数据可以看出,还有另外两条路提升模型性能,尽管它不是训练最优的。一个是固定住模型大小,持续增加训练数据,模型效果会持续变好,只要你有源源不断的新数据能加进来,那么小模型就能效果持续变好;另外一个是固定住训练数据量,那么你持续放大模型参数规模,同样的,模型效果也会越来愈好。如果我们把按指定比例同时增加训练数据和模型容量叫做“Optimal Chinchilla Law”,那么这两种做法可以被称为“Sub-optimal Chinchilla Law”。

从上面可以看出,到 2025 年下半年之前,我们仍然可以走目前的 Scaling law 的路子,一般是同时增加数据和模型规模,来快速提升模型能力。到 2025 年下半年,很可能到时候已经无法找到大量新数据了,那么那时候,需要“合成数据”技术有突破,能靠机器自己产生新的训练数据,否则的话……那么到时候是否模型能力就无法提升了呢?也不是,那时候就只能在不增加训练数据的情况下,只增加模型规模,原则上模型能力是能继续提升的。只是提升的效率不如目前这种同时增加训练数据和模型规模那么快而已。

二、开源与闭源

Meta 是目前大模型开源届的中流砥柱,目前判断 LLAMA-3 系列都会开源,包括 400B 的模型也会在几个月后开源出来,这意味着我们会拥有效果与 GPT 4 基本持平的开源大语言模型,这对于很多复杂应用来说是个很好的消息(当然 400B 规模的模型太大,这是个实际问题)。

如果 Meta 的 LLAMA-3 系列全面开源,甚至之后的 LLAMA-4 也持续开源(目前看这个可能性是较大的,Meta 的开源决心比较大,相比而言,谷歌还是决心不太够,商业利益考虑更多些),那么国内应该重视研究如何将 LLAMA 系列更好中文化的相关技术(因为一些原因,LLAMA 专门把中文能力弱化了,但是这其实不是大问题。做好的中文模型并不一定需要特别大量的中文数据,比如 GPT 4),包括扩充中文 Token 词典、用中文训练数据低成本地进行继续预训练、有害信息的去除以通过审查等。这样随着 Meta 未来不断发布能力更强的新版本模型,国内有可能出现如此局面:通过 LLAMA 中文化得到的超强大模型(包括语言模型及多模态模型),出现的时间节点甚至快于绝大多数国内发布的最强大模型,包括闭源及开源大模型。

如果几个月后市面上出现 GPT 4 级别(“中文化改造得较好+模型压缩比较成功”的 LLAMA-3 400B 模型)的开源文本及多模态模型,那么压力会给到国内大模型开发厂商,无论是开源还是闭源。不排除国内之后会出现要求封杀 LLAMA 的声音,封杀原因其实很好找,还是希望不要走到这种局面。

目前从模型能力而言,整体来说开源阵营确实是弱于闭源阵营的,这是事实,但是从最近一年半的技术发展来看,开源模型(包括国外和国内的模型)和最好闭源模型的差距是在逐步缩小的,而不是越来越拉大的,这也是事实,很多数据可以说明这一点。

那么什么因素会严重影响开源和闭源模型的能力差异呢?我觉得模型能力增长曲线的平滑或陡峭程度比较重要。如果模型能力增长曲线越陡峭(单位时间内,模型各方面能力的增长数量,越快就类似物体运动的“加速度”越大),则意味着短时间内需要投入越大的计算资源,这种情况下闭源模型相对开源模型是有优势的,主要是资源优势导致的模型效果优势。反过来,如果模型能力增长曲线越平缓,则意味着开源和闭源模型的差异会越小,追赶速度也越快。这种由模型能力增长曲线陡峭程度决定的开源闭源模型的能力差异,我们可以称之为模型能力的“加速度差”。

让我们往后多看几年,之后开源和闭源模型的能力是逐步缩小还是逐步增大?这取决于我们在“合成数据”方面的技术进展。如果“合成数据”技术在未来两年能获得突破,则两者差距是有可能拉大的,如果不能突破,则开源和闭源模型能力会相当。所以,“合成数据”是未来两年大语言模型最关键的决定性的技术,很可能没有之一。

三、合成数据

总体而言,“合成数据”是个新兴研究方向,还很不成熟,目前尚未能看到能主导未来技术方向的主流方法,探索性和不确定性比较强。目前能看到的“合成数据”应用的最好的产品应该是 DALLE-3,以及 Sora,就是里面的图像和视频 Re-caption 模型,本质上这就是机器产生的“合成数据”。

“合成数据”目前应该投入大量资源来做,这是未雨绸缪,也能形成核心竞争力。到了明年下半年,可能用来训练大语言模型的高质量新数据就没有了,靠线性新增数据支持指数速度发展的模型能力是不够的。如果“合成数据”在未来两年不能取得突破性进展,大模型发展速度会骤然下降,无法维持目前这种高速发展的局面。目前 AIGC 高速发展本质上还是吃的数据红利,如果 GPT 5 达不到 AGI,同时合成数据也没有技术突破,那么大模型能否通向 AGI 就存在很大疑问。

寄希望于多模态数据来大幅增强大模型的关键能力,比如逻辑推理能力,目前看只是很多人的愿望,目前并无明确的数据或实验能支持这一点。我个人认为这条路走不通。所以不应该把进一步提升 AGI 能力的希望寄托在多模态数据上。

未来如何,取决于我们在“合成数据”上的进展,有两种不同的未来图景。一种是长时间内合成数据无法大规模实用化。如果这样,未来会出现如下现象:大模型能力基本到顶,各种质疑目前 AGI 技术路线的声音会逐步放大,而开源和闭源模型能力会持平,这对于很多闭源模型公司来说是灭顶之灾(尽管我们可以继续通过放大模型规模来进一步提升模型能力,但是模型能力增长曲线会比现在平缓很多,即模型能力“加速度差”减小,开源模型较为容易赶上闭源模型)。另外一种是在未来两年内要么我们在“合成数据”方面取得大进展,要么即使没有新数据,但是我们有突破性的技术,可以在数据量不变情况下,极大提升大模型的数据利用效率(相同数据量,相同模型大小,如果模型效果更好,则说明模型的数据利用率更高。当然这块目前也未看到可以主导未来发展的主流技术)。那么,我们会继续按照 Scaling law 往后发展,就是继续增加新数据,推大模型规模,来持续增强模型能力。如果这样,AGI 是可能通过大模型技术路线达到的,而在这种情况下,意味着需要相比目前数以十倍、百倍的资源投入,基本是个天文数字了,而在如此巨量投入的情况下,Meta 等公司是否还会这样大力度支持开源就是有疑问的,此时开源模型是有可能越来越落后于闭源模型的。

关于作者

张俊林,中国中文信息学会理事,中科院软件所博士。目前担任新浪微博新技术研发负责人,在此之前在阿里巴巴担任资深技术专家,负责新技术团队。著有《这就是搜索引学:核心技术详解》、《大数据日知录:架内与算法》,目前主要研发兴趣集中在人语言模型及推荐系统。

本文内容不代表平台立场,不构成任何投资意见和建议,以个人官网/官方/公司公告为准。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西部战区联指中心发布命令。不是演习,不是战备。是接一个人

西部战区联指中心发布命令。不是演习,不是战备。是接一个人

安安说
2026-05-03 14:05:25
曝张雨绮退租288㎡豪宅!季付23万,中介证实已搬家,房源正招租

曝张雨绮退租288㎡豪宅!季付23万,中介证实已搬家,房源正招租

乐天闲聊
2026-05-04 02:10:09
获得七国撑腰后,巴拿马总统通告全球:不希望看到中国扣留船只

获得七国撑腰后,巴拿马总统通告全球:不希望看到中国扣留船只

照亮你的前行之路
2026-05-04 05:28:33
五一假期刚过2天,社会上就出现了4大“反常现象”,风向真的变了

五一假期刚过2天,社会上就出现了4大“反常现象”,风向真的变了

奇思妙想草叶君
2026-05-02 22:36:37
一夜之间,价格大跳水!网友:“2000多块凭空蒸发”

一夜之间,价格大跳水!网友:“2000多块凭空蒸发”

常州大喇叭
2026-05-03 16:29:16
汪涵和杨乐乐的瓜!

汪涵和杨乐乐的瓜!

八卦疯叔
2026-05-03 10:43:39
俄罗斯“苏-34”战机被击落

俄罗斯“苏-34”战机被击落

名人苟或
2026-05-03 13:14:52
“雄鹰一样的女人”孔苑苑不幸病逝,年仅44岁,曾登上《歌手2025》,她开设的课曾是校园爆款,学生甚至在网吧拼网速抢名额

“雄鹰一样的女人”孔苑苑不幸病逝,年仅44岁,曾登上《歌手2025》,她开设的课曾是校园爆款,学生甚至在网吧拼网速抢名额

极目新闻
2026-05-03 18:54:59
爆冷!中国男团遭遇26年来世乒赛首败:1-3不敌韩国队 王楚钦缺阵

爆冷!中国男团遭遇26年来世乒赛首败:1-3不敌韩国队 王楚钦缺阵

风过乡
2026-05-03 06:12:32
中国钢厂多艘货船无法运抵中东 在印度、阿曼港口卸货致运费翻倍

中国钢厂多艘货船无法运抵中东 在印度、阿曼港口卸货致运费翻倍

中国经营报
2026-05-03 07:12:13
塔图姆称缺战抢七很难受!右腿至今仍比左腿短 绿军本季不算失败

塔图姆称缺战抢七很难受!右腿至今仍比左腿短 绿军本季不算失败

罗说NBA
2026-05-04 05:29:38
艺人严浩翔父亲严军宣布断绝子女关系后,其母发文:严浩翔已给严军300多万,也承诺资助妹妹完成学业,其与严军欠下的债没关系

艺人严浩翔父亲严军宣布断绝子女关系后,其母发文:严浩翔已给严军300多万,也承诺资助妹妹完成学业,其与严军欠下的债没关系

极目新闻
2026-05-03 10:58:59
奶奶一天喂狗8顿,比格胖成煤气罐。家人才心酸发现,是奶奶年老,每次都忘了已经喂过…

奶奶一天喂狗8顿,比格胖成煤气罐。家人才心酸发现,是奶奶年老,每次都忘了已经喂过…

英国那些事儿
2026-05-03 23:11:44
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
Netflix重磅美剧,终于回归了

Netflix重磅美剧,终于回归了

来看美剧
2026-05-03 18:11:26
反击了!郑丽文深夜发布公告,揭穿卢秀燕等人算计:不处理季麟连

反击了!郑丽文深夜发布公告,揭穿卢秀燕等人算计:不处理季麟连

青仔的世界
2026-05-04 03:16:03
14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

阿讯说天下
2026-04-18 11:52:55
胜利1-3不敌库迪西亚,菲利克斯破门,C罗中框

胜利1-3不敌库迪西亚,菲利克斯破门,C罗中框

懂球帝
2026-05-04 04:05:26
日本高层抵华后傻眼,中国未安排要员接见!高市早苗亲自去搬救兵

日本高层抵华后傻眼,中国未安排要员接见!高市早苗亲自去搬救兵

小杨侃事
2026-05-04 04:27:44
马筱梅该失望了,张兰没邀请,摇摇椅没品牌,对小汪宝还是未改口

马筱梅该失望了,张兰没邀请,摇摇椅没品牌,对小汪宝还是未改口

橙星文娱
2026-05-03 23:55:44
2026-05-04 06:04:49
络绎科学 incentive-icons
络绎科学
专业的科研成果转化社区
105文章数 3关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

特朗普:4日上午起引导被困霍尔木兹海峡船只驶离

头条要闻

特朗普:4日上午起引导被困霍尔木兹海峡船只驶离

体育要闻

曼联3-2双杀利物浦!提前三轮锁定欧冠资格 梅努制胜

娱乐要闻

黄晓明五一带娃去游乐场 父子幸福同框

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

教育
健康
家居
游戏
艺术

教育要闻

坊间传闻:南京这所公办校或将加入摇号名单!

干细胞治烧烫伤面临这些“瓶颈”

家居要闻

灵动实用 生活艺术场

扶我起来 《马拉松》未来多年将持续更新剧情

艺术要闻

陈丹青:文艺青年吴冠中

无障碍浏览 进入关怀版