网易首页 > 网易号 > 正文 申请入驻

不用一个字,MIT团队让细胞自动机教会了大模型推理

0
分享至

1970 年,数学家约翰·康威发明了“生命游戏”(Game of Life)。在一块无限延伸的棋盘上,每个方格非生即死,遵循几条极其简单的规则:活细胞如果邻居太少就会孤独而死,太多则因拥挤而亡;死细胞恰好有三个活邻居就会复活。

没有人下棋,没有人操控,但这些简单规则跑起来之后,屏幕上会涌现出滑翔机、脉冲枪、甚至可以模拟图灵机的复杂结构。半个多世纪以来,这个实验一直被视为复杂性科学的经典演示,展示简单规则如何生成无穷复杂的行为。


图丨康威的“生命游戏”(来源:WikiPedia)

没人想过这些东西能教 AI 说话。直到现在。

MIT Improbable AI 实验室 Pulkit Agrawal 团队在今年 3 月发表了一篇论文,提出了一个听起来相当不合常理的想法:用类似“生命游戏”的细胞自动机生成的数据,去预训练大型语言模型。这些数据不包含任何文字、任何语义,只是一个 12×12 网格上像素不断演化的轨迹。


图丨Pulkit Agrawal(来源:MIT CSAIL)

但实验结果显示,在这些纯粹的“动态图案”上训练过的模型,在随后的自然语言学习中表现得更好,困惑度(perplexity)降低了最多 6%,收敛速度加快了最多 1.6 倍。更让人意外的是,仅用 1.64 亿个细胞自动机 token 做预训练,效果竟然超过了用 16 亿个真实英语文本(来自 Common Crawl 数据集 C4)做同样的预训练。

这项工作的核心思路可以用一句话概括:语言模型真正需要学习的,可能不是语言本身,而是语言背后的计算结构。


图丨NCA 预预训练到语言预训练的概览(来源:arXiv)

研究团队使用的是“神经细胞自动机”(Neural Cellular Automata, NCA),这是经典细胞自动机的一种推广。传统的细胞自动机(比如康威的生命游戏)使用固定的规则,而 NCA 把规则替换成了一个小型神经网络,具体来说是一个 3×3 卷积加上一层 MLP。

每次生成训练数据时,研究者随机初始化这个网络的权重,等于随机抽取一条全新的动力学规则,然后让它在网格上跑出一段时空演化轨迹。这些轨迹被切割成 2×2 的图像块,映射为 token 序列,再用标准的下一个 token 预测任务来训练 transformer。

换句话说,模型拿到的每一条序列,都来自一个它从未见过的规则。要预测下一个 token,它必须在上下文中推断出这条隐藏规则,然后应用它。这和语言模型在真实文本上做的事情存在某种深层对应。

斯坦福大学马腾宇与 Percy Liang 团队在 2022 年的工作中就曾论证,下一个 token 预测本质上是一种隐式的贝叶斯推断:模型从已有的文本中推断出潜在的“生成概念”,再据此预测接下来会出现什么。NCA 训练把这个过程提纯了。自然语言中混杂着语义快捷方式和共现先验,模型可以“投机取巧”;而 NCA 数据中没有任何语义可以依赖,每一个 token 都在迫使模型做纯粹的规则推断。

这套方法被称为“pre-pre-training”,即在正式的语言预训练之前,先用合成数据做一轮“预预训练”。

训练流程分三步走:先在 NCA 数据上训练 transformer 的非嵌入层权重,再在自然语言语料(网页文本、代码或数学文本)上做标准预训练,最后是针对具体任务的微调。研究者测试了三个下游语料库,分别是 OpenWebText(网页文本,约 90 亿 token)、OpenWebMath(数学文本,约 40 亿 token)和 CodeParrot(代码,约 130 亿 token),在所有三个领域上都观察到了持续的改善。


(来源:arXiv)

在推理基准测试上,收益同样可见。GSM8K 数学推理测试中,NCA 预训练将 pass@1 从 3.8% 提升到 4.4%;HumanEval 代码生成测试中,pass@1 从 6.8% 提升到 7.5%;BigBench-Lite 综合推理测试中,pass@4 从 25.9% 跃升至 36.5%。

绝对数字不算大,这些毕竟是 16 亿参数的模型,而非千亿级的商用系统,但对照实验的一致性指向了一个清晰的信号:从非语言数据中习得的某些东西,确实在帮助模型处理语言任务。

那么,到底是什么被转移了?研究者做了一个拆解实验:在 NCA 预训练完成后,选择性地重新初始化模型的不同组件(注意力层、MLP 层、LayerNorm 层),然后观察下游表现的变化。结果非常明确:重新初始化注意力权重造成的性能损失最大,远超其他组件。这意味着注意力层承载了最多的可迁移结构。

MLP 层的效果则因领域而异:在 OpenWebText 上,保留 NCA 阶段的 MLP 权重反而会干扰语言学习;但在 CodeParrot 上,影响可以忽略不计。

这一发现和最近 Jelassi 等人(2025 年)对混合专家(MoE)架构的分析形成了一定程度的呼应,那项工作表明扩大 MLP 参数主要增强的是记忆能力而非推理能力。两相对照,一幅功能分工的图景浮现出来:注意力层负责学习通用的依赖追踪和上下文推断机制,MLP 层则倾向于存储特定领域的模式和统计规律。正因如此,注意力层从 NCA 到语言的迁移是“万金油”式的,而 MLP 的迁移效果取决于源域和目标域之间的匹配程度。

研究中另一个值得关注的发现有关于复杂性匹配。团队使用 gzip 压缩率作为 NCA 轨迹复杂性的度量,压缩率低意味着数据更有规律、更可预测,压缩率高则意味着更丰富的时空结构。他们把 NCA 数据按压缩率分成几个区间(20-30%、30-40%、40-50%、50% 以上),分别测试各区间对不同下游领域的迁移效果。

结果表明,网页文本和数学文本从高复杂度 NCA(50%+ 压缩率)中受益最大,而代码领域的最优区间在中等复杂度(30-40%)。有意思的是,这恰好与目标语料自身的复杂度特征对齐,OpenWebText 和 OpenWebMath 的 gzip 压缩率在 60-70%,CodeParrot 则只有 32%。

这意味着,合成数据不是“越多越好”或“越复杂越好”,而是需要与目标领域的计算特征相匹配。研究者称之为“domain-targeted data design”,一种自然语言训练中不存在的调控杠杆。你无法轻易改变英语的统计特性,但你可以调整 NCA 的规则空间、字母表大小、复杂度分布,让它精确匹配你想要训练的能力。

这项工作的理论背景可以追溯到几条学术脉络。一条是 MIT 同校 Phillip Isola 团队在 2024 年提出的“柏拉图表征假说”(Platonic Representation Hypothesis),核心观点是不同模态、不同架构的 AI 模型,随着规模增大,内部表征正在趋同,仿佛都在逼近对现实世界的某种共同的统计模型。如果这个假说成立,那么从非语言数据中能学到与语言相通的表征,就不那么令人惊讶了。

另一条脉络来自 Finzi 等人(2026 年)提出的“epiplexity”概念,它指出对于计算能力有限的观察者而言,简单的确定性过程也能生成需要学习才能把握的结构信息。经典信息论认为确定性变换不能增加信息量,但那假设的是全知全能的观察者;对于一个有限容量的 transformer 来说,生命游戏中涌现的滑翔机和碰撞图案,确实包含了它必须“理解”才能预测的东西。

关于“为什么 1.6 亿 token 的自动机数据能胜过 16 亿 token 的英语”,研究者给出的解释是:在远低于计算最优规模的 token 预算下(Chinchilla 定律建议 16 亿参数模型需要约 320 亿 token),自然语言训练主要在学习浅层的局部模式,比如词汇搭配、句法片段这些“表面功夫”。

而 NCA 数据由于每条序列都对应一个独特的动力学规则,多样性极高,冗余性极低,每个 token 都在训练模型做深层的规则推断。加之 Abbas 等人(2023 年)的研究已经表明大规模自然语言数据集内部存在大量语义冗余,NCA 在 token 效率上的优势就变得可以理解了。

不过,目前这个实验的规模还限于 16 亿参数,距离工业级的千亿参数模型还有数量级的差距。NCA 预训练的增益随模型规模增大而递减,400M 模型改善了 8.6%,1.6B 模型改善了 5.7%,这个趋势在更大规模上是否会完全消失,目前还不清楚。

此外,对于较大字母表(n=10, 15)的 NCA,收益在一定 token 预算后出现饱和甚至下降,说明简单地“生成更多 NCA 数据”并不是万能解法。如何从理论上指导合成数据的生成,使其精确匹配目标领域的计算特征,仍然是一个开放的研究问题。

但研究者们的期望不止于此。论文的结尾写道,他们的最终愿景是完全用干净的合成数据做预训练,只在最后阶段用少量经过精心筛选的自然语言来获取语义。当前的“预预训练”框架是这个范式的早期原型。

参考资料:

1.https://arxiv.org/pdf/2603.10055

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普调整访华计划,中方官宣其访华时间将增加一天

特朗普调整访华计划,中方官宣其访华时间将增加一天

阿凫爱吐槽
2026-05-11 18:49:38
一个男人在低谷时,拼命社交、到处找机会都是下策,最明智的做法,是狠心在这两件事上做“反人性”的投资

一个男人在低谷时,拼命社交、到处找机会都是下策,最明智的做法,是狠心在这两件事上做“反人性”的投资

心理观察局
2026-05-08 09:00:04
回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

素衣读史
2026-03-31 15:11:31
张军被查创下多个尴尬“纪录”,18年前曾因酒驾被查

张军被查创下多个尴尬“纪录”,18年前曾因酒驾被查

元芳有看法
2026-04-30 09:25:44
特朗普访华消息官宣当天,郑丽文确定赴美日期,并派副手北上进京

特朗普访华消息官宣当天,郑丽文确定赴美日期,并派副手北上进京

温一壶皎月
2026-05-11 19:32:14
OPPO母亲节宣传文案翻车,段永平称确实不合适、欠妥,武汉大学、中国广告协会等发声

OPPO母亲节宣传文案翻车,段永平称确实不合适、欠妥,武汉大学、中国广告协会等发声

界面新闻
2026-05-11 10:12:06
越来越猖狂的早餐店“铝包子”,我们应提高警惕,该如何辨别呢?

越来越猖狂的早餐店“铝包子”,我们应提高警惕,该如何辨别呢?

心中的麦田
2026-05-04 18:47:55
人社部最新动态,2026年养老金有好消息,企退人员补发700元难吗

人社部最新动态,2026年养老金有好消息,企退人员补发700元难吗

浪子阿邴聊体育
2026-05-11 12:25:59
一块不可思议的化石,距今4.6亿年前,上面竟出现北宋书法家题字

一块不可思议的化石,距今4.6亿年前,上面竟出现北宋书法家题字

收藏大视界
2026-04-09 20:23:26
李小冉含泪终止妊娠:为保胎儿健康放弃当妈,背后真相令人心疼

李小冉含泪终止妊娠:为保胎儿健康放弃当妈,背后真相令人心疼

TVB的四小花
2026-05-10 20:40:05
38岁年轻保姆三次表白雇主,惨遭拒绝,雇主:我年纪大,但不傻

38岁年轻保姆三次表白雇主,惨遭拒绝,雇主:我年纪大,但不傻

孢木情感
2026-05-11 08:51:22
有暴雨大暴雨!广东下一轮强对流天气时间,确定了

有暴雨大暴雨!广东下一轮强对流天气时间,确定了

新浪财经
2026-05-11 14:52:32
60岁李泽楷,爱江山也爱美人,终其一生也未能摆脱李嘉诚的阴影

60岁李泽楷,爱江山也爱美人,终其一生也未能摆脱李嘉诚的阴影

妙知
2026-05-11 05:04:30
国家德比2-0!11.7亿豪门无解联赛11连胜 完爆死敌夺冠第29次加冕

国家德比2-0!11.7亿豪门无解联赛11连胜 完爆死敌夺冠第29次加冕

狍子歪解体坛
2026-05-11 04:56:31
CBA公司给山西队开出一份大罚单!

CBA公司给山西队开出一份大罚单!

体育哲人
2026-05-11 22:13:47
SK海力士股价涨幅扩大至12%,报188.8万韩元

SK海力士股价涨幅扩大至12%,报188.8万韩元

每日经济新闻
2026-05-11 10:12:02
Windows折磨了用户几十年的问题:终于被微软修了!不用再看1048576KB了

Windows折磨了用户几十年的问题:终于被微软修了!不用再看1048576KB了

快科技
2026-05-11 12:09:38
历史不会重演,但会惊人相似:中国房地产很有可能重走日本老路?

历史不会重演,但会惊人相似:中国房地产很有可能重走日本老路?

笑熬浆糊111
2026-05-11 05:00:12
卖掉格力换来的416亿,被他们“败”光了!

卖掉格力换来的416亿,被他们“败”光了!

犀利强哥
2026-05-11 08:30:22
王彩桦挨轰「整得像鬼」泪崩!退通告内幕曝光 小S暖心力挺:你很美

王彩桦挨轰「整得像鬼」泪崩!退通告内幕曝光 小S暖心力挺:你很美

ETtoday星光云
2026-05-11 14:51:12
2026-05-11 22:44:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16687文章数 514940关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

重庆一57岁女医生驾奔驰酿车祸 操作不当致2死6伤

头条要闻

重庆一57岁女医生驾奔驰酿车祸 操作不当致2死6伤

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

宗馥莉罢免销售负责人 部分业务将外包

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

艺术
教育
旅游
房产
亲子

艺术要闻

陆抑非写竹,笔力遒劲

教育要闻

最被QS2027看好的几所学校!

旅游要闻

临沂醉美花海!五月临沂必打卡,错过等1年!

房产要闻

产业赋能教育!翰林府与北师大的这场签约,绝不那么简单!

亲子要闻

亚太生殖年会重磅发布LILY研究 科学循证守护母婴安全

无障碍浏览 进入关怀版