网易首页 > 网易号 > 正文 申请入驻

费舍尔1922年的公式,竟成了ChatGPT的训练底座

0
分享至

1922年,罗纳德·费舍尔在一篇论文里给一个叫"最大似然估计"的东西命了名。他没料到,这个统计工具会在一百年后同时驱动两种东西:一个用Python写的200行文本摘要脚本,和消耗上万张GPU训练的千亿参数大模型。底层数学完全一致。

这像是发现你家自行车和F1赛车共用同一套传动原理。MLE(最大似然估计,Maximum Likelihood Estimation)在现代NLP里就是这种存在——它被用得太多,以至于从业者常常忘记追问:为什么这玩意能work?

从数词到预测:MLE的两幅面孔

先看那台"自行车"。下面这段代码是一个极简的抽取式摘要器,核心逻辑用spaCy实现:

它做的事情很朴素:统计每个词在文档里的出现频率,给句子打分,挑出高分句拼接成摘要。没有神经网络,没有注意力机制,纯频率游戏。

但"频率"在这里是个障眼法。真正的问题是:我们凭什么认为高频词更重要?

答案藏在MLE的原始定义里。费舍尔的核心洞见是——给定观测数据,选择让这组数据出现概率最大的那个参数。对于词频模型,"参数"就是每个词的真实分布概率,"观测数据"是你手里的文档。数词只是在执行这个优化过程的粗糙近似。

现在切到"F1赛车"。GPT类模型的训练目标,写成公式是:

最大化:Σ log P(x_t | x_{

逐个token预测下一个,把对数概率加起来。这和1922年的MLE是同一个数学对象,只是参数空间从"词汇表大小的向量"膨胀到了"百亿级别的矩阵集合"。

两个系统的差异在工程层,不在原理层。词频模型假设词与词独立,所以MLE有解析解,直接数就行。语言模型放弃独立性假设,MLE没有闭式解,只能梯度下降慢慢磨。

为什么这个统一视角值钱

从业者的常见陷阱是把技术栈切成孤岛:传统NLP是一堆,深度学习是另一堆,大模型是第三堆。MLE的连续性戳破了这个幻觉。

具体能用在哪?

第一,调试直觉。当你的摘要器在某些文档上表现诡异,MLE视角告诉你:不是代码bug,是模型假设(词独立性)与数据生成机制不匹配。同样的诊断框架可以搬到Transformer上——损失不降?可能是你的条件独立性假设(自回归结构)跟任务不对付。

第二,迁移成本估算。从词袋模型跳到BERT,你以为换的是架构,实际换的是MLE的约束条件。知道这个,能预判哪些旧 trick 还能用,哪些必须扔掉。

第三,避免神秘化。见过太多人把大模型训练描述成"炼丹",仿佛loss曲面里有不可名状的邪神。MLE框架把它拉回地面:你就是在找一个让训练语料出现概率最大的参数配置,梯度噪声大就多跑几轮,学习率炸了就调小点。

代码里的诚实

回到那200行spaCy脚本。它有个常被忽略的细节:平滑处理。

纯MLE在零计数词上会出灾难——某个词在训练文档里没出现,模型就认定它的概率是零,遇到测试文档直接崩盘。拉普拉斯1774年用的解决方案是加一平滑,现代实现改用更精细的插值方法。

这个补丁在大模型时代以另一种形式复活:tokenizer的处理、embedding层的初始化策略、甚至RLHF阶段的KL散度约束,本质上都是同一焦虑的变奏——怎么防止MLE的过度自信。

费舍尔当年证明MLE的一致性时,假设了无限数据。现实里数据永远有限,所以所有工程都是在这个裂缝上打补丁。词频模型加平滑,神经网络加正则,大模型加人类反馈——同一问题的不同剂量。

有个细节值得玩味。spaCy的摘要器默认用TF-IDF而非原始词频,这是在MLE框架里引入先验(IDF惩罚常见词)。贝叶斯主义者会告诉你这是往MAP(最大后验估计)走了一步。但MAP和MLE的边界在工程实践中是模糊的,调参就是在两个教堂之间来回串门。

从arc到loop

这篇文章的标题 promised 一个"arc":从数词到训练GPT。但走完这个arc你会发现,终点和起点在逻辑上闭合了。

当下最热的讨论之一是大模型"涌现能力"的来源。一种解释指向规模本身,另一种指向训练数据的多样性。MLE视角提供第三种线索:当参数足够多、数据足够杂,模型只是在更忠实地执行那个1922年的指令——最大化观测数据的似然。所谓的"涌现",可能是高维空间里MLE解的结构性副产品,而非某种需要单独命名的魔法。

这解释了一个反直觉现象:缩小模型规模但保持训练目标不变,某些"涌现"行为会平滑消失,而非阶梯式跌落。如果是真正的相变,你应该看到阈值效应;如果是MLE优化在高位空间的连续变形,行为变化就该是渐进的。观测数据支持后者。

当然,RLHF(基于人类反馈的强化学习,Reinforcement Learning from Human Feedback)阶段打破了纯MLE的叙事。PPO优化的是奖励模型而非数据似然,这是费舍尔没写过的东西。但基础预训练阶段仍是MLE的领地,而那是能力的主要来源。

所以当你下次读到某篇论文宣称"超越了传统MLE框架",值得多问一句:超越的是哪个版本?1922年的原始公式,还是2024年加了十七层补丁的工程实现?

那个spaCy摘要器还在GitHub上跑着,每年被下载数百万次。它不知道自己的远房亲戚正在消耗兆瓦级电力预测下一个token。MLE是它们共享的沉默血统。

如果费舍尔穿越到2024年,他能一眼认出ChatGPT的训练目标吗?还是会被参数规模的数字暂时晃住眼睛——就像我们看到自行车链条和F1变速箱时,需要有人画一张传动原理图才能确信它们的亲缘关系?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
亚航回应重庆起飞航班上女乘客闹事被要求下机:其未遵守指令

亚航回应重庆起飞航班上女乘客闹事被要求下机:其未遵守指令

南方都市报
2026-04-23 11:44:20
被打女司机耳膜穿孔,警方已经立案,保安恐承担刑责

被打女司机耳膜穿孔,警方已经立案,保安恐承担刑责

映射生活的身影
2026-04-22 21:55:22
伊朗“内鬼” 竟是路由器

伊朗“内鬼” 竟是路由器

每日经济新闻
2026-04-22 13:52:09
全国首例职场性侵精神工伤案明日开庭,崔丽丽:我不再需要那件衣服做我的盔甲!

全国首例职场性侵精神工伤案明日开庭,崔丽丽:我不再需要那件衣服做我的盔甲!

潇湘晨报
2026-04-22 22:31:09
反转!21岁小伙养6弟妹被官方打假,家里有两套房还卖高价猪肉

反转!21岁小伙养6弟妹被官方打假,家里有两套房还卖高价猪肉

冷紫葉
2026-04-22 20:11:04
王会民,非法收受他人财物,数额特别巨大

王会民,非法收受他人财物,数额特别巨大

新京报
2026-04-23 10:21:20
至今,还有13个国家和中国没有建交,他们都是谁?

至今,还有13个国家和中国没有建交,他们都是谁?

深度报
2026-04-22 22:30:57
俄副外长:俄方获邀以最高级别参加美国G20峰会

俄副外长:俄方获邀以最高级别参加美国G20峰会

财联社
2026-04-23 11:20:05
全球九成产能在日本,前2月中国一滴未买,若断供,我们顶得住吗

全球九成产能在日本,前2月中国一滴未买,若断供,我们顶得住吗

远方风林
2026-04-22 11:56:20
倒查13年,央国企开始慌了

倒查13年,央国企开始慌了

新浪财经
2026-04-23 02:44:17
官方:凯尔登-约翰逊当选年度最佳第六人 马刺本赛季已获两项大奖

官方:凯尔登-约翰逊当选年度最佳第六人 马刺本赛季已获两项大奖

罗说NBA
2026-04-23 06:06:09
网传孙吉被前妻实名举报:骗婚、出轨、海外拥有巨额不明资产

网传孙吉被前妻实名举报:骗婚、出轨、海外拥有巨额不明资产

懂球帝
2026-04-22 12:46:51
大理民宿市场凉透了!7000家民宿厮杀,有人亏百万仍没卖出去…

大理民宿市场凉透了!7000家民宿厮杀,有人亏百万仍没卖出去…

火山詩话
2026-04-23 09:14:07
谷雨后一定要补阳,不然一年都白忙,谷雨后别忘吃升阳3宝,好吃

谷雨后一定要补阳,不然一年都白忙,谷雨后别忘吃升阳3宝,好吃

阿龙美食记
2026-04-22 10:47:33
欧盟强制手机必须能自己换电池,不改就不准卖

欧盟强制手机必须能自己换电池,不改就不准卖

桂系007
2026-04-22 23:56:55
尚界Z7发布会上趴窝?官方回应:请大家不要过度解读、传播

尚界Z7发布会上趴窝?官方回应:请大家不要过度解读、传播

识礁Farsight
2026-04-23 10:29:05
你喝的白酒只有七百年历史,三千年酒文化跟它半毛钱关系都没有

你喝的白酒只有七百年历史,三千年酒文化跟它半毛钱关系都没有

富贵说
2026-03-31 23:21:39
9岁女童确诊胰腺癌,医生怒问父母:怎能天天给孩子吃这些?

9岁女童确诊胰腺癌,医生怒问父母:怎能天天给孩子吃这些?

健康之光
2026-04-22 17:37:49
调查丨光伏跨界者困境样本:泉为科技两大生产基地几近停摆,部分设备被拉走,“95后”董事长被立案

调查丨光伏跨界者困境样本:泉为科技两大生产基地几近停摆,部分设备被拉走,“95后”董事长被立案

每日经济新闻
2026-04-22 22:04:11
囧!尼尔·罗伯逊算错分差草草认输,送给庞俊旭一局

囧!尼尔·罗伯逊算错分差草草认输,送给庞俊旭一局

体坛周报
2026-04-23 11:26:28
2026-04-23 13:03:00
我是一个养虾人
我是一个养虾人
有态度网友ytd
1611文章数 11关注度
往期回顾 全部

科技要闻

车没卖爆,利润却大涨,特斯拉发布财报

头条要闻

媒体:当下越南"极度不安" 苏林访华签文件对冲"焦虑"

头条要闻

媒体:当下越南"极度不安" 苏林访华签文件对冲"焦虑"

体育要闻

莱斯特城降入英甲,一场亏麻了的豪赌

娱乐要闻

《凌探未来》公益纪录片今日发布

财经要闻

全球第一个国家宣布:储备6月耗尽

汽车要闻

长安"1445"战略:一张走向"世界长安"的行军地图

态度原创

亲子
艺术
房产
游戏
军事航空

亲子要闻

“透明”的幼儿园:困在监控里的家长和老师

艺术要闻

生完7个女儿后,60岁的她被香奈儿邀请走高定秀!

房产要闻

三亚安居房,突然官宣!

曝微软将推自定义Game Pass 用户自选功能按需定价

军事要闻

特朗普宣布延长停火 伊朗表态

无障碍浏览 进入关怀版