网易首页 > 网易号 > 正文 申请入驻

大模型参数简史

0
分享至

来源:大数据文摘编译

从最早的GPT-2模型算起,短短六年间,模型参数数量从1亿级飙升到数百亿、数千亿,甚至跃升至“万亿级”大关。

2019年,OpenAI发布GPT-2系列模型,参数分别为1.37亿、3.8亿、8.12亿和16.1亿,训练数据大约为100亿个token。这一系列模型奠定了大语言模型的技术基础。

2020年,GPT-3横空出世,以1750亿参数刷新业界认知。其训练数据多达4000亿个token,数据源包括CommonCrawl、WebText2、Books和Wikipedia等。GPT-3的诞生标志着AI模型进入“超大规模”阶段,也成为后续技术发展的参照系。

此后几年,GPT-3.5和GPT-4接连问世,尽管官方未公布架构细节,但它们显然进一步扩大了参数规模和数据体量,推动了AI能力的飞跃。

Meta在2023年也参与了这场竞赛,发布了LLaMA模型。LLaMA-65B使用了1.4万亿个token进行训练,其中包括被争议的Books3数据集。此举在法律和伦理层面引发广泛关注,也间接推动了对训练数据合法性的立法讨论。

到了2024年,Meta推出了Llama-3.1模型,参数规模达4050亿,是当时最大的可下载密集模型。其训练token数量高达3.67万亿,涵盖初始训练、长上下文训练和“退火”阶段。

所谓“退火”,指的是模型在少量高质量代码和数学数据上进行二次训练,用以提升在特定基准测试中的表现。这一做法引发了争议,因为它偏离了模型作为“文本续写引擎”的初衷,更像是将预训练阶段“助教化”。

2025年,Llama-4家族出现了一款参数规模达2万亿的模型,这是目前已知最大的模型,采用了混合专家(MoE)架构:16个专家模块中每次激活2880亿参数。然而,由于Meta在基准测试平台lmarena上“调包”行为曝光,引发学术丑闻,团队信任度暴跌,这款模型最终未能正式发布。

在密集模型发展暂缓的同时,MoE架构悄然登上主舞台。

MoE(Mixture-of-Experts)架构允许模型通过选择性激活部分参数,在保证推理效率的同时,提升总体规模。2023年底,Mistral公司发布Mixtral 8x7B模型,首次将MoE概念引入开源社区。

2024年4月,Mixtral-8x22B问世,拥有1410亿总参数,每次仅激活390亿参数。MoE架构的优势使得普通开发者也能运行超大模型,极大推动了开源生态的发展。

同年12月,DeepSeek发布V3 Base模型,参数高达6710亿,每次推理启用370亿,训练数据更是达到惊人的14.8万亿token。这一模型一经发布,其推理能力逼近GPT-4,被认为是首个真正可媲美GPT-4的开源模型。

更令人震惊的是,这款模型的发布居然一度导致英伟达(NVDA)股价短暂下跌,资本市场显然已意识到其潜在冲击。

DeepSeek之后,一批大型MoE模型接连问世,特别是在中国。

2024年3月,Databricks发布DBRX模型,总参数1320亿,激活参数360亿,采用16个专家中选4的精细MoE策略。其性能在多项基准测试上得分高于Mixtral 8x7B和Grok-1。

2025年1月,MiniMax发布4560亿参数模型MiniMax-Text-01,激活参数为459亿,并使用前代模型进行奖励标注,体现出对训练流程的持续优化。

2025年6月,三家公司——小红书、腾讯、百度——分别发布了Dots、混元、ERNIE系列模型,构成最新一波“国产大模型潮”。

Dots模型总参数1430亿,激活参数140亿,训练数据为11.2万亿token,采用“精细MoE+共享专家”架构,推理效果已可对标Qwen2.5-72B。

腾讯的混元模型拥有800亿总参数,激活130亿,支持长达25.6万token的上下文处理,训练数据高达20万亿token。它采用了GQA(Grouped Query Attention)机制,并在MoE中引入了始终活跃的“共享专家”。

而最近,百度ERNIE 4.5模型则达到了4240亿总参数,激活470亿,并进入了多模态阶段,支持图文输入。尽管训练token总量未公开,但据称达到“万亿级”。

这些开源MoE模型的相继发布,彻底改变了模型可得性的格局。从几年前的“几乎没有公开可用的GPT-3级模型”,到如今多个超400B参数的模型可以自由下载,产业门槛被迅速拉低。

曾经开发者不得不拿70B的LLaMA模型“凑合”,通过GPT-3生成的数据进行微调。但这种“AI训练AI”的循环,常常导致模型退化,形成“生成病变”。

405B密集模型的发布,是一次技术断裂点。而随后的MoE潮流,则彻底改变了格局。

值得注意的是,MoE模型虽然拥有超大参数量,但每次推理仅使用一小部分参数,其“密度”远不及密集模型。这引发了关于“深度是否决定智能”的讨论。

一些研究者认为,只有具备足够密度的神经网络,才能孕育出真正意义上的推理能力。但目前的自动化基准测试无法捕捉这种“结构智能”,因而厂商更倾向于堆叠参数、刷分取胜。

与此同时,新的架构和训练策略也在不断尝试。

RWKV、Byte-latent、BitNet等新型结构正悄然出现,一些团队甚至开始用合成数据替代真实文本,以规避版权问题。

然而这些手段的效果仍存疑。真正决定AI能力的,可能仍是最原始的“文本续写能力”——这也是所有语言模型的本质所在。

via https://gist.github.com/rain-1/cf0419958250d15893d8873682492c3e

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到3月31日 ”未来知识库”精选的百部前沿科技趋势报告

(加入未来知识库,全部资料免费阅读和下载)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
36岁张含韵近况曝光!春节一周胖6斤,如今和“五竹叔”恋情稳定

36岁张含韵近况曝光!春节一周胖6斤,如今和“五竹叔”恋情稳定

代军哥哥谈娱乐
2026-03-09 14:17:39
陈若琳美的实在太美,太养眼了。

陈若琳美的实在太美,太养眼了。

科学发掘
2026-03-10 12:16:56
两条“好报道”,又翻车了?

两条“好报道”,又翻车了?

走读新生
2026-03-09 12:26:32
美国恨透了中国北斗,却不敢轻易干扰北斗信号,美在害怕什么?

美国恨透了中国北斗,却不敢轻易干扰北斗信号,美在害怕什么?

阿纂看事
2026-03-04 11:40:53
官宣!28岁中超新援被美职联终身禁赛 若上报国际足联恐全球禁赛

官宣!28岁中超新援被美职联终身禁赛 若上报国际足联恐全球禁赛

念洲
2026-03-10 06:47:39
87岁钢琴家过生日,5岁儿子登台演出,2岁小儿子在台下拍手笑。

87岁钢琴家过生日,5岁儿子登台演出,2岁小儿子在台下拍手笑。

东方不败然多多
2026-03-09 19:32:59
6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

小熊侃史
2025-12-25 11:24:12
伊朗媒体愤怒质问:你敢注视他们的眼睛吗?

伊朗媒体愤怒质问:你敢注视他们的眼睛吗?

新华社
2026-03-09 23:50:13
网友吐槽别糊弄老百姓了,又是天才少年发国际论文,谁家的公子?

网友吐槽别糊弄老百姓了,又是天才少年发国际论文,谁家的公子?

眼光很亮
2026-03-08 01:43:40
美军前高官发出警告:以色列可不是中美俄,打急眼了它真敢丢核弹

美军前高官发出警告:以色列可不是中美俄,打急眼了它真敢丢核弹

Ck的蜜糖
2026-03-08 04:32:39
不容错过!3月10日晚19:00,中央电视台CCTV5、CCTV5+直播节目表

不容错过!3月10日晚19:00,中央电视台CCTV5、CCTV5+直播节目表

皮皮观天下
2026-03-10 10:14:24
官方:由于某些原因,2026年平壤国际马拉松赛正式取消

官方:由于某些原因,2026年平壤国际马拉松赛正式取消

懂球帝
2026-03-10 11:52:22
再恩爱也没用!上海38岁陈成去世,烟酒不沾,死因曝光,妻儿悲痛

再恩爱也没用!上海38岁陈成去世,烟酒不沾,死因曝光,妻儿悲痛

八斗小先生
2026-03-09 15:16:02
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
建议中老年人:少吃稀饭馒头,常吃3种高钾食物,腿脚有劲精神足

建议中老年人:少吃稀饭馒头,常吃3种高钾食物,腿脚有劲精神足

江江食研社
2026-02-12 08:30:15
农业部部长喊你少吃点油!我就是油水太大了,现在都胖得变了形!

农业部部长喊你少吃点油!我就是油水太大了,现在都胖得变了形!

正经说个事儿
2026-03-09 14:59:06
44岁Ella演唱会穿短裤险走光,拽裤腰露小腹引迷惑

44岁Ella演唱会穿短裤险走光,拽裤腰露小腹引迷惑

无心小姐姐
2026-03-10 12:47:50
彩票中奖1000万别慌!现金支票和转账支票,选错一步麻烦不断

彩票中奖1000万别慌!现金支票和转账支票,选错一步麻烦不断

蜉蝣说
2026-03-09 11:05:04
当时很多蒙古考察日记中,都提到蒙古人性交随意,得病者极多!

当时很多蒙古考察日记中,都提到蒙古人性交随意,得病者极多!

老范谈史
2026-02-24 14:51:55
全国人大代表汪道文为年轻人保养支招:保暖很重要,尤其是脖子,特别强调戴围脖

全国人大代表汪道文为年轻人保养支招:保暖很重要,尤其是脖子,特别强调戴围脖

极目新闻
2026-03-09 08:19:52
2026-03-10 13:35:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4567文章数 37418关注度
往期回顾 全部

科技要闻

“龙虾”狂欢 卖“饲料”先挣钱了?

头条要闻

媒体:伊各方誓言赢得战争 美国现在即使想退出也很难

头条要闻

媒体:伊各方誓言赢得战争 美国现在即使想退出也很难

体育要闻

韩国女足羡慕的奢侈品,为何选择中国女足

娱乐要闻

肖战首夺SMG视帝,孙俪四封视后创历史

财经要闻

全民"养龙虾"背后 第一批受害者浮现

汽车要闻

蔚来换电和理想5C,谁能硬刚,比亚迪兆瓦闪充?

态度原创

教育
旅游
本地
房产
公开课

教育要闻

这就是大城市的高考吗?

旅游要闻

接下来的郑州绝美!2026郑州春日赏花时间表来啦!

本地新闻

云游中国|候鸟高颜值亮相!沉浸式打卡青海湿地

房产要闻

信号!千亿巨头入局,三亚开启新一轮大征拆!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版