网易首页 > 网易号 > 正文 申请入驻

AI圈水太深:OpenAI保密、Meta作弊!国产MoE却异军突起

0
分享至

新智元报道

编辑:KingHZ

【新智元导读】从GPT-2到Llama 4,大模型这几年到底「胖」了多少?从百亿级密集参数到稀疏MoE架构,从闭源霸权到开源反击,Meta、OpenAI、Mistral、DeepSeek……群雄割据,谁能称王?

从传统稠密架构到如今流行的稀疏专家模型(MoE),语言大模型发展突飞猛进:

最初参数量只有百亿级别,而现在即便仅激活的参数,也已达数百亿!

从百亿到万亿,参数膨胀的背后,是AI界对Scaling Law的「信仰」。

自2019年GPT-2发布以来,大语言模型(LLM)在参数规模、训练数据量和模型架构上不断实现飞跃。

大模型到底有多大?从2019年到现在,大模型到底经历了什么样的「体重暴涨」?

Github网友rain-1手动总结了基础模型趋势,「不含任何AI生成成分」。他还表示:

近年来,语言模型波澜壮阔,宏大深远。

所记述的不过是其中一个微小片段,如同管中窥豹,可见一斑。

本文旨在客观呈现大语言模型的规模信息。不涉及泄露信息或坊间传闻,仅聚焦基础模型(即原始文本续写引擎,而非ChatBot)。

AI模型参数量呈指数级增长

大模型来时路之GPT系列

OpenAI走向「CloseAI」

主要分为2大阶段:早期密集模型和中期转型与保密期。

早期密集模型(2019-2020):

GPT-2家族:参数从137M到1.61B,训练数据约10B tokens。

GPT-3(175B):首个真正意义上的「大模型」。

中期转型与保密期(2022-2023):

GPT-3.5和GPT-4:未公布参数或数据规模,信息高度保密。

具体而言,GPT-2(2019年)参数规模:

GPT-2-small:1.37亿参数

GPT-2-medium:3.8亿参数

GPT-2-large:8.12亿参数

GPT-2-xl:16.1亿参数

训练数据基于未公开的WebText数据集,约40GB互联网文本,估计约100亿token。

2020年,OpenAI发布GPT-3,代号davinci/davinci-002,参数规模为1750亿(175.0B)。

链接:https://www.lesswrong.com/posts/3duR8CrvcHywrnhLo/how-does-gpt-3-spend-its-175b-parameters

训练数据约4000亿token,来源包括CommonCrawl、WebText2、Books1、Books2和Wikipedia。

具体数据来源信息,参考下列论文。

论文链接:https://arxiv.org/abs/2005.14165

GPT-3训练耗时数月,动用了数万块A100GPU的数据中心算力。

2022-2023年,GPT-3.5&GPT-4官方未公开架构细节、训练数据规模等信息。

之后。OpenAI一度成为高度保密的「黑箱」。而开源模型,特别是LLaMA家族「水涨船高」:

从7B到65B,其中65B使用1.4T tokens训练;

LLaMA 3.1达到405B参数、3.67T tokens数据,是开源领域的一个转折点。

大模型来时路之Llama系列

Llama初代版本规模7B、13B、33B、65B参数。

训练数据方面,官方确认采用了Books3数据集。65B版本预训练使用了1.4万亿(1.4T)token的数据集。

2024年,Meta开源Llama-3.1 405B,参数规模高达4050亿,采用密集Transformer架构(即推理时所有参数均参与计算)。

训练数据方面,Meta未详细披露数据源,仅模糊表述为「来自多种知识来源的混合数据」,共消耗了3.67万亿token

初始预训练:2.87万亿token

长上下文训练:8000亿token

退火训练(Annealing):4000万token

论文链接:https://arxiv.org/abs/2407.21783

他们还有项关键发现:

实验表明,在核心基准测试中,对小规模高质量代码和数学数据进行退火训练(Annealing),可显著提升预训练模型的表现。

但网友本人对当前流行的「Benchmax退火预训练」趋势表示遗憾——

它使得基础语言模型逐渐偏离了「初心」——纯粹的文本续写引擎定位。

这种优化本该属于后训练阶段(即让模型扮演「AI聊天助手」角色的过程),但企业显然更看重benchmark分数的短期提升。

2025,Meta推出Llama-4系列,其中2万亿参数巨兽「Behemoth」,或永不面世。

Llama4系列中的旗舰大模型Behemoth,是参数总量达2万亿的稀疏专家模型(MoE),架构为A288B 16E——即具备2880亿激活参数、共计16个专家模块,但尚未公开发布

Llama4的Maverick和Scout模型都是从这款大模型中蒸馏而来。然而,围绕这些轻量版本,却爆发了一场丑闻——

Meta(原facebook)被曝在lmarena基准测试平台上「作弊」

此举被外界视为学术不端,严重打击了外界对Llama团队的信任。此后,,至今不明这款2T模型是否还有问世的可能。

至于已经发布的Llama4小模型,尽管打着「继承大模型精华」的旗号,但目前普遍评价是:智能水平较低,难堪大用。

大模型荒原时代

曾经,AI界一度陷入「大模型荒原」——其他模型无法与GPT-3匹敌。

大家只能反复微调LLaMA等小模型,试图追赶GPT-3留下的庞大身影。

但这种「用AI训练AI」的做法,也让模型性能陷入恶性循环。

Llama 405B模型的发布堪称转折点。在此之前,Mistral发布了2款混合专家模型:

2023年12月,推出Mixtral 8x7B(混合专家模型)。

2024年4月,升级发布Mixtral-8x22B(总参数量141B,实际激活参数39B的稀疏混合专家模型)。

Mixtral-8x22B尽管不是GPT-3那样的密集模型,但总参数量级已与GPT-3(175B)相当。

混合专家MoE架构的革命性在于,它让普通研究者也能训练和使用超大规模的模型——不再需要动用成千上万张GPU组成的计算集群。

2023末,稀疏MoE架构的兴起:Deepseek V3等接踵而来。

在参数总量远超GPT-3的同时,MoE模型激活参数维持在几十B级别,从而降低推理成本。

这些LLM支持多语言、多模态,并采用更大上下文窗口(32K~256K tokens)。有的新模型还采用「退火」式后训练,提升特定基准测试上的表现。

MoE热潮来袭

群雄并起,谁主沉浮?

2024年圣诞节次日,DeepSeek发布了震撼之作——V3 Base。官网如此描述:

V3新特性

6710亿MoE参数

370亿激活参数

基于14.8万亿高质量token训练

这不仅实现了模型规模的巨大飞跃,衍生的R1推理模型更让业界惊艳——

R1可能是首个真正达到GPT-4水平,而且可自由下载使用的模型。

稀疏的不是能力,是让计算更精准地对焦。

此次突破掀起了MoE大模型的训练热潮,尤其在中国市场。值得注意的是,这些新模型普遍具备多模态、多语言能力,训练数据维度大幅拓展。

代表性模型巡礼

1.Databricks DBRX(2024年3月)

  • 架构:1320亿总参/360亿激活/12万亿token训练

  • 创新点:采用16选4的细粒度专家系统(相较Mixtral-8x7B的8选2架构更精细)

2.Minimax-Text-01(2025年1月)

  • 架构:4560亿总参/459亿激活

  • 特色:创新性融合注意力机制与MoE架构

  • 质量控制:采用前代60亿参数MoE模型进行数据标注

3.Dots.llm1(2025年6月)

  • 亮点:128选6超细粒度专家系统+2个常驻专家

  • 成就:不使用合成数据即达到Qwen2.5-72B水平

  • 技术:引入QK-Norm注意力层优化

4.混元(2025年6月)

  • 突破:20万亿token训练/256K上下文窗口

  • 架构:8专家动态激活+1个常驻共享专家

5.文心4.5(2025年6月)

  • 规模:4240亿总参/470亿激活

  • 特点:多模态基座模型

  • 训练:基于「数万亿」token(具体数据未披露)


尾声

未来在哪里?

在很长一段时间内,市面上几乎没有与GPT-3规模相同的LLM可供使用。

由于缺乏可下载的同等级模型,人们很难复现GPT-3的性能。

而且坦率地说,人们当时并没有真正意识到:要想要达到GPT-3的表现,模型的规模必须接近1750亿参数。

当时能拿来用的,最多也只是LLaMA系列中参数不超过700亿的模型,大家也只能靠这些凑合着用。

而目前,网友rain所知的最新、最大的可用稠密基础模型有4050亿参数。在预训练中,它使用了更近时段的数据(包括人们讨论大语言模型、分享模型对话记录的内容),而且模型本身也经过「退火」(annealing)处理。

因此相比以往那些基础模型,它更像已经初步具备助手特性的系统。

最近一批稀疏专家模型(MoE)也有类似的问题,并且这些模型在训练数据中还融入了一些中文文化元素。

要怎么公平地比较稀疏模型(MoE)和致密模型,目前还没有明确标准。

也许大语言模型的一些高级能力,只有在模型足够深、结构足够密集时才会显现出来。而现有的自动评测指标,可能并不能很好地捕捉这些能力。所以现在很多人索性一头扎进了MoE模型的研发中。

一些新模型也在尝试采用新的网络架构(比如RWKV、byte-latent、bitnet)或者使用合成数据生成的新方法。

不过,要打造一个优秀的文本生成引擎,目前还不清楚这些新技术到底有多大帮助。

网友rain说得直接:文本生成引擎才是一切的基础。

没有优秀的文本续写能力,后续的微调、角色扮演都只是空中楼阁。

在「助手化」狂潮之外,也许是时候重新思考——

我们真的理解基础模型的本质了吗?

参考资料:

https://gist.github.com/rain-1/cf0419958250d15893d8873682492c3e

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
联合国官宣全球进入“水破产”时代,中国人为什么感觉“水自由”

联合国官宣全球进入“水破产”时代,中国人为什么感觉“水自由”

李砍柴
2026-01-31 17:09:35
为什么欧美人不炒菜,只有中国有?美国教授:中国活在原始时代

为什么欧美人不炒菜,只有中国有?美国教授:中国活在原始时代

以茶带书
2026-01-14 21:54:28
Here we go!罗马诺:先租后买,罗马将签下拜仁前锋萨拉戈萨

Here we go!罗马诺:先租后买,罗马将签下拜仁前锋萨拉戈萨

懂球帝
2026-02-02 02:02:29
“新国标”就是自毁长城

“新国标”就是自毁长城

多村来信
2025-12-06 12:21:07
突发!伊朗多地发生爆炸,已致超20人死伤,以色列:与我们无关!特朗普发出“最后通牒”,伊方:已掌握敌方作战计划,将适时发动打击

突发!伊朗多地发生爆炸,已致超20人死伤,以色列:与我们无关!特朗普发出“最后通牒”,伊方:已掌握敌方作战计划,将适时发动打击

每日经济新闻
2026-02-01 00:54:06
香烟热度榜!烟民贡献万亿税收,年度销冠竟是这个品牌…

香烟热度榜!烟民贡献万亿税收,年度销冠竟是这个品牌…

慧翔百科
2025-12-24 09:14:14
欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

boss外传
2026-01-26 14:00:03
台军通知台湾民众:开战后,见到穿军服的,一定要先逃命

台军通知台湾民众:开战后,见到穿军服的,一定要先逃命

青烟小先生
2026-01-31 21:43:51
马面女孩吴小燕:毛巾蒙面13年,手术取出2公斤异物后过得怎样了

马面女孩吴小燕:毛巾蒙面13年,手术取出2公斤异物后过得怎样了

小熊侃史
2025-12-25 11:27:42
记者:转会失败让罗马尼奥利错失600万年薪,球员对此很愤怒

记者:转会失败让罗马尼奥利错失600万年薪,球员对此很愤怒

懂球帝
2026-02-01 07:44:07
老家村里,发生了一件不堪入耳的事情

老家村里,发生了一件不堪入耳的事情

豫见老家河南
2026-01-30 07:06:14
三方交易!亨特和施罗德互换东家

三方交易!亨特和施罗德互换东家

体坛周报
2026-02-01 14:33:14
多家银行已停止提供贷款!科技巨头被曝或裁员3万人

多家银行已停止提供贷款!科技巨头被曝或裁员3万人

新浪财经
2026-02-01 13:44:41
2013年,潘玮柏35万收购篮网0.067%股份,如今升值多少?

2013年,潘玮柏35万收购篮网0.067%股份,如今升值多少?

天光破云来
2026-01-17 03:39:55
一位退休教师的两年邻里噩梦:花12.5万装修梦想花园,却被邻居强行“切走”1米多!

一位退休教师的两年邻里噩梦:花12.5万装修梦想花园,却被邻居强行“切走”1米多!

英国那些事儿
2026-02-01 22:58:29
长得太美被导演占为己有,4年后生下大明星儿子,17岁就成男一号

长得太美被导演占为己有,4年后生下大明星儿子,17岁就成男一号

泠泠说史
2026-01-17 18:56:18
我们的大脑,为什么要封存3岁前的记忆?

我们的大脑,为什么要封存3岁前的记忆?

中科院物理所
2025-12-07 14:24:58
天呢!一个德国人非议中国教育是对人性的摧残…

天呢!一个德国人非议中国教育是对人性的摧残…

慧翔百科
2026-01-26 11:45:53
广东一初中生背影火了,网友怒赞!

广东一初中生背影火了,网友怒赞!

深圳晚报
2026-01-31 23:00:48
有性生活的注意!男人感染HPV后,身体有2个表现,教你一眼看出来

有性生活的注意!男人感染HPV后,身体有2个表现,教你一眼看出来

健康科普365
2025-12-15 09:50:47
2026-02-02 02:43:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14457文章数 66560关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

艺术
房产
亲子
本地
公开课

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

亲子要闻

兰姐带玥儿看北京新学校,玥儿一待俩小时,筱梅的话终于有人信了

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版