网易首页 > 网易号 > 正文 申请入驻

不用一个字,MIT团队让细胞自动机教会了大模型推理

0
分享至

1970 年,数学家约翰·康威发明了“生命游戏”(Game of Life)。在一块无限延伸的棋盘上,每个方格非生即死,遵循几条极其简单的规则:活细胞如果邻居太少就会孤独而死,太多则因拥挤而亡;死细胞恰好有三个活邻居就会复活。

没有人下棋,没有人操控,但这些简单规则跑起来之后,屏幕上会涌现出滑翔机、脉冲枪、甚至可以模拟图灵机的复杂结构。半个多世纪以来,这个实验一直被视为复杂性科学的经典演示,展示简单规则如何生成无穷复杂的行为。


图丨康威的“生命游戏”(来源:WikiPedia)

没人想过这些东西能教 AI 说话。直到现在。

MIT Improbable AI 实验室 Pulkit Agrawal 团队在今年 3 月发表了一篇论文,提出了一个听起来相当不合常理的想法:用类似“生命游戏”的细胞自动机生成的数据,去预训练大型语言模型。这些数据不包含任何文字、任何语义,只是一个 12×12 网格上像素不断演化的轨迹。


图丨Pulkit Agrawal(来源:MIT CSAIL)

但实验结果显示,在这些纯粹的“动态图案”上训练过的模型,在随后的自然语言学习中表现得更好,困惑度(perplexity)降低了最多 6%,收敛速度加快了最多 1.6 倍。更让人意外的是,仅用 1.64 亿个细胞自动机 token 做预训练,效果竟然超过了用 16 亿个真实英语文本(来自 Common Crawl 数据集 C4)做同样的预训练。

这项工作的核心思路可以用一句话概括:语言模型真正需要学习的,可能不是语言本身,而是语言背后的计算结构。


图丨NCA 预预训练到语言预训练的概览(来源:arXiv)

研究团队使用的是“神经细胞自动机”(Neural Cellular Automata, NCA),这是经典细胞自动机的一种推广。传统的细胞自动机(比如康威的生命游戏)使用固定的规则,而 NCA 把规则替换成了一个小型神经网络,具体来说是一个 3×3 卷积加上一层 MLP。

每次生成训练数据时,研究者随机初始化这个网络的权重,等于随机抽取一条全新的动力学规则,然后让它在网格上跑出一段时空演化轨迹。这些轨迹被切割成 2×2 的图像块,映射为 token 序列,再用标准的下一个 token 预测任务来训练 transformer。

换句话说,模型拿到的每一条序列,都来自一个它从未见过的规则。要预测下一个 token,它必须在上下文中推断出这条隐藏规则,然后应用它。这和语言模型在真实文本上做的事情存在某种深层对应。

斯坦福大学马腾宇与 Percy Liang 团队在 2022 年的工作中就曾论证,下一个 token 预测本质上是一种隐式的贝叶斯推断:模型从已有的文本中推断出潜在的“生成概念”,再据此预测接下来会出现什么。NCA 训练把这个过程提纯了。自然语言中混杂着语义快捷方式和共现先验,模型可以“投机取巧”;而 NCA 数据中没有任何语义可以依赖,每一个 token 都在迫使模型做纯粹的规则推断。

这套方法被称为“pre-pre-training”,即在正式的语言预训练之前,先用合成数据做一轮“预预训练”。

训练流程分三步走:先在 NCA 数据上训练 transformer 的非嵌入层权重,再在自然语言语料(网页文本、代码或数学文本)上做标准预训练,最后是针对具体任务的微调。研究者测试了三个下游语料库,分别是 OpenWebText(网页文本,约 90 亿 token)、OpenWebMath(数学文本,约 40 亿 token)和 CodeParrot(代码,约 130 亿 token),在所有三个领域上都观察到了持续的改善。


(来源:arXiv)

在推理基准测试上,收益同样可见。GSM8K 数学推理测试中,NCA 预训练将 pass@1 从 3.8% 提升到 4.4%;HumanEval 代码生成测试中,pass@1 从 6.8% 提升到 7.5%;BigBench-Lite 综合推理测试中,pass@4 从 25.9% 跃升至 36.5%。

绝对数字不算大,这些毕竟是 16 亿参数的模型,而非千亿级的商用系统,但对照实验的一致性指向了一个清晰的信号:从非语言数据中习得的某些东西,确实在帮助模型处理语言任务。

那么,到底是什么被转移了?研究者做了一个拆解实验:在 NCA 预训练完成后,选择性地重新初始化模型的不同组件(注意力层、MLP 层、LayerNorm 层),然后观察下游表现的变化。结果非常明确:重新初始化注意力权重造成的性能损失最大,远超其他组件。这意味着注意力层承载了最多的可迁移结构。

MLP 层的效果则因领域而异:在 OpenWebText 上,保留 NCA 阶段的 MLP 权重反而会干扰语言学习;但在 CodeParrot 上,影响可以忽略不计。

这一发现和最近 Jelassi 等人(2025 年)对混合专家(MoE)架构的分析形成了一定程度的呼应,那项工作表明扩大 MLP 参数主要增强的是记忆能力而非推理能力。两相对照,一幅功能分工的图景浮现出来:注意力层负责学习通用的依赖追踪和上下文推断机制,MLP 层则倾向于存储特定领域的模式和统计规律。正因如此,注意力层从 NCA 到语言的迁移是“万金油”式的,而 MLP 的迁移效果取决于源域和目标域之间的匹配程度。

研究中另一个值得关注的发现有关于复杂性匹配。团队使用 gzip 压缩率作为 NCA 轨迹复杂性的度量,压缩率低意味着数据更有规律、更可预测,压缩率高则意味着更丰富的时空结构。他们把 NCA 数据按压缩率分成几个区间(20-30%、30-40%、40-50%、50% 以上),分别测试各区间对不同下游领域的迁移效果。

结果表明,网页文本和数学文本从高复杂度 NCA(50%+ 压缩率)中受益最大,而代码领域的最优区间在中等复杂度(30-40%)。有意思的是,这恰好与目标语料自身的复杂度特征对齐,OpenWebText 和 OpenWebMath 的 gzip 压缩率在 60-70%,CodeParrot 则只有 32%。

这意味着,合成数据不是“越多越好”或“越复杂越好”,而是需要与目标领域的计算特征相匹配。研究者称之为“domain-targeted data design”,一种自然语言训练中不存在的调控杠杆。你无法轻易改变英语的统计特性,但你可以调整 NCA 的规则空间、字母表大小、复杂度分布,让它精确匹配你想要训练的能力。

这项工作的理论背景可以追溯到几条学术脉络。一条是 MIT 同校 Phillip Isola 团队在 2024 年提出的“柏拉图表征假说”(Platonic Representation Hypothesis),核心观点是不同模态、不同架构的 AI 模型,随着规模增大,内部表征正在趋同,仿佛都在逼近对现实世界的某种共同的统计模型。如果这个假说成立,那么从非语言数据中能学到与语言相通的表征,就不那么令人惊讶了。

另一条脉络来自 Finzi 等人(2026 年)提出的“epiplexity”概念,它指出对于计算能力有限的观察者而言,简单的确定性过程也能生成需要学习才能把握的结构信息。经典信息论认为确定性变换不能增加信息量,但那假设的是全知全能的观察者;对于一个有限容量的 transformer 来说,生命游戏中涌现的滑翔机和碰撞图案,确实包含了它必须“理解”才能预测的东西。

关于“为什么 1.6 亿 token 的自动机数据能胜过 16 亿 token 的英语”,研究者给出的解释是:在远低于计算最优规模的 token 预算下(Chinchilla 定律建议 16 亿参数模型需要约 320 亿 token),自然语言训练主要在学习浅层的局部模式,比如词汇搭配、句法片段这些“表面功夫”。

而 NCA 数据由于每条序列都对应一个独特的动力学规则,多样性极高,冗余性极低,每个 token 都在训练模型做深层的规则推断。加之 Abbas 等人(2023 年)的研究已经表明大规模自然语言数据集内部存在大量语义冗余,NCA 在 token 效率上的优势就变得可以理解了。

不过,目前这个实验的规模还限于 16 亿参数,距离工业级的千亿参数模型还有数量级的差距。NCA 预训练的增益随模型规模增大而递减,400M 模型改善了 8.6%,1.6B 模型改善了 5.7%,这个趋势在更大规模上是否会完全消失,目前还不清楚。

此外,对于较大字母表(n=10, 15)的 NCA,收益在一定 token 预算后出现饱和甚至下降,说明简单地“生成更多 NCA 数据”并不是万能解法。如何从理论上指导合成数据的生成,使其精确匹配目标领域的计算特征,仍然是一个开放的研究问题。

但研究者们的期望不止于此。论文的结尾写道,他们的最终愿景是完全用干净的合成数据做预训练,只在最后阶段用少量经过精心筛选的自然语言来获取语义。当前的“预预训练”框架是这个范式的早期原型。

参考资料:

1.https://arxiv.org/pdf/2603.10055

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张云逸与邓小平相交45年,因何事张云逸说:分别之前还能见你真好

张云逸与邓小平相交45年,因何事张云逸说:分别之前还能见你真好

大运河时空
2026-03-25 15:15:03
立陶宛请求访华,要当面向中方认错?中方开出条件,做不到就免谈

立陶宛请求访华,要当面向中方认错?中方开出条件,做不到就免谈

掉了颗大白兔糖
2026-03-26 07:31:17
眼看一艘又一艘油轮,加紧运进中国,美国决定取消“石油制裁”

眼看一艘又一艘油轮,加紧运进中国,美国决定取消“石油制裁”

小杨侃事
2026-03-26 07:12:12
76岁公公住我家15年没给一毛钱,谁料,他去世第2天,家里突然来了两个律师…

76岁公公住我家15年没给一毛钱,谁料,他去世第2天,家里突然来了两个律师…

感觉会火
2026-03-25 18:31:16
干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

泡泡网
2026-03-26 11:21:11
怪不得张云鹏一心想回加拿大,原来是有女朋友了,回国定居是不是更难了?

怪不得张云鹏一心想回加拿大,原来是有女朋友了,回国定居是不是更难了?

奇思妙想生活家
2026-03-26 13:10:30
商务部:敦促日方切实反思纠错,为两国正常经贸合作创造条件

商务部:敦促日方切实反思纠错,为两国正常经贸合作创造条件

界面新闻
2026-03-26 15:25:50
于谦真的挺休闲的,跟退休老人一样,一盘饺子,比得过山珍海味。

于谦真的挺休闲的,跟退休老人一样,一盘饺子,比得过山珍海味。

陈意小可爱
2026-03-26 00:36:06
偷偷结婚生子?移民国外?李梓萌消失2月引争议,担心的事发生了

偷偷结婚生子?移民国外?李梓萌消失2月引争议,担心的事发生了

离离言几许
2026-03-16 16:31:23
到东北喝了顿酒,才知道为啥东北白酒走不出东三省,不是价格问题

到东北喝了顿酒,才知道为啥东北白酒走不出东三省,不是价格问题

涛哥美食汇
2026-03-10 09:16:10
现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

侃神评故事
2026-03-25 11:30:09
4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

通鉴史智
2026-03-15 11:45:00
2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

观察鉴娱
2026-03-18 09:09:10
055第二批次6艘全部下水,东海舰队终迎万吨大驱,剩下4艘为何迟迟不分?

055第二批次6艘全部下水,东海舰队终迎万吨大驱,剩下4艘为何迟迟不分?

林子说事
2026-03-26 12:44:00
李晨洋刷新男子撑竿跳高全国纪录,中国田径跃上新高度

李晨洋刷新男子撑竿跳高全国纪录,中国田径跃上新高度

北青网-北京青年报
2026-03-26 11:55:17
36岁中国大哥在非洲开“手机网吧”,生意火爆到需要排队取号,当事人:投入很小,仅花了点流量钱,最火的时候10来个人看一个手机

36岁中国大哥在非洲开“手机网吧”,生意火爆到需要排队取号,当事人:投入很小,仅花了点流量钱,最火的时候10来个人看一个手机

观威海
2026-03-26 09:19:03
杀死中国大使?日本军官再次独走,中方撂下一句狠话,手段不简单

杀死中国大使?日本军官再次独走,中方撂下一句狠话,手段不简单

说历史的老牢
2026-03-25 13:00:26
揭秘!外卖员几乎不骑雅迪、爱玛,背后原因太现实,全是无奈之举

揭秘!外卖员几乎不骑雅迪、爱玛,背后原因太现实,全是无奈之举

番外行
2026-03-26 08:43:31
39岁江疏影从万众瞩目的女神,到状态憔悴不自信,被穿搭盖住优势

39岁江疏影从万众瞩目的女神,到状态憔悴不自信,被穿搭盖住优势

捣蛋窝
2026-03-20 14:53:30
4、5、6月幸运连连的三个生肖,危机变转机,财富破土节节攀升

4、5、6月幸运连连的三个生肖,危机变转机,财富破土节节攀升

毅谈生肖
2026-03-26 11:47:20
2026-03-26 15:59:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16487文章数 514797关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
艺术
旅游
房产
公开课

数码要闻

三星更新870 EVO系列SATA SSD:最高8TB 定价超1万元

艺术要闻

哪一座桥不是风景?

旅游要闻

济南动物园“花朝荟”系列活动浪漫上演

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版