网易首页 > 网易号 > 正文 申请入驻

不用一个字,MIT团队让细胞自动机教会了大模型推理

0
分享至


来源:DeepTech深科技

运营/排版:何晨龙

1970 年,数学家约翰·康威发明了“生命游戏”(Game of Life)。在一块无限延伸的棋盘上,每个方格非生即死,遵循几条极其简单的规则:活细胞如果邻居太少就会孤独而死,太多则因拥挤而亡;死细胞恰好有三个活邻居就会复活。

没有人下棋,没有人操控,但这些简单规则跑起来之后,屏幕上会涌现出滑翔机、脉冲枪、甚至可以模拟图灵机的复杂结构。半个多世纪以来,这个实验一直被视为复杂性科学的经典演示,展示简单规则如何生成无穷复杂的行为。


图丨康威的“生命游戏”(来源:WikiPedia)

没人想过这些东西能教 AI 说话。直到现在。

MIT Improbable AI 实验室 Pulkit Agrawal 团队在今年 3 月发表了一篇论文,提出了一个听起来相当不合常理的想法:用类似“生命游戏”的细胞自动机生成的数据,去预训练大型语言模型。这些数据不包含任何文字、任何语义,只是一个 12×12 网格上像素不断演化的轨迹。


图丨Pulkit Agrawal(来源:MIT CSAIL)

但实验结果显示,在这些纯粹的“动态图案”上训练过的模型,在随后的自然语言学习中表现得更好,困惑度(perplexity)降低了最多 6%,收敛速度加快了最多 1.6 倍。更让人意外的是,仅用 1.64 亿个细胞自动机 token 做预训练,效果竟然超过了用 16 亿个真实英语文本(来自 Common Crawl 数据集 C4)做同样的预训练。

这项工作的核心思路可以用一句话概括:语言模型真正需要学习的,可能不是语言本身,而是语言背后的计算结构。


图丨NCA 预预训练到语言预训练的概览(来源:arXiv)

研究团队使用的是“神经细胞自动机”(Neural Cellular Automata, NCA),这是经典细胞自动机的一种推广。传统的细胞自动机(比如康威的生命游戏)使用固定的规则,而 NCA 把规则替换成了一个小型神经网络,具体来说是一个 3×3 卷积加上一层 MLP。

每次生成训练数据时,研究者随机初始化这个网络的权重,等于随机抽取一条全新的动力学规则,然后让它在网格上跑出一段时空演化轨迹。这些轨迹被切割成 2×2 的图像块,映射为 token 序列,再用标准的下一个 token 预测任务来训练 transformer。

换句话说,模型拿到的每一条序列,都来自一个它从未见过的规则。要预测下一个 token,它必须在上下文中推断出这条隐藏规则,然后应用它。这和语言模型在真实文本上做的事情存在某种深层对应。

斯坦福大学马腾宇与 Percy Liang 团队在 2022 年的工作中就曾论证,下一个 token 预测本质上是一种隐式的贝叶斯推断:模型从已有的文本中推断出潜在的“生成概念”,再据此预测接下来会出现什么。NCA 训练把这个过程提纯了。自然语言中混杂着语义快捷方式和共现先验,模型可以“投机取巧”;而 NCA 数据中没有任何语义可以依赖,每一个 token 都在迫使模型做纯粹的规则推断。

这套方法被称为“pre-pre-training”,即在正式的语言预训练之前,先用合成数据做一轮“预预训练”。

训练流程分三步走:先在 NCA 数据上训练 transformer 的非嵌入层权重,再在自然语言语料(网页文本、代码或数学文本)上做标准预训练,最后是针对具体任务的微调。研究者测试了三个下游语料库,分别是 OpenWebText(网页文本,约 90 亿 token)、OpenWebMath(数学文本,约 40 亿 token)和 CodeParrot(代码,约 130 亿 token),在所有三个领域上都观察到了持续的改善。


图丨NCA 预预训练在多个领域改进并加速了语言模型预训练(来源:arXiv)

在推理基准测试上,收益同样可见。GSM8K 数学推理测试中,NCA 预训练将 pass@1 从 3.8% 提升到 4.4%;HumanEval 代码生成测试中,pass@1 从 6.8% 提升到 7.5%;BigBench-Lite 综合推理测试中,pass@4 从 25.9% 跃升至 36.5%。

绝对数字不算大,这些毕竟是 16 亿参数的模型,而非千亿级的商用系统,但对照实验的一致性指向了一个清晰的信号:从非语言数据中习得的某些东西,确实在帮助模型处理语言任务。

那么,到底是什么被转移了?研究者做了一个拆解实验:在 NCA 预训练完成后,选择性地重新初始化模型的不同组件(注意力层、MLP 层、LayerNorm 层),然后观察下游表现的变化。结果非常明确:重新初始化注意力权重造成的性能损失最大,远超其他组件。这意味着注意力层承载了最多的可迁移结构。

MLP 层的效果则因领域而异:在 OpenWebText 上,保留 NCA 阶段的 MLP 权重反而会干扰语言学习;但在 CodeParrot 上,影响可以忽略不计。

这一发现和最近 Jelassi 等人(2025 年)对混合专家(MoE)架构的分析形成了一定程度的呼应,那项工作表明扩大 MLP 参数主要增强的是记忆能力而非推理能力。两相对照,一幅功能分工的图景浮现出来:注意力层负责学习通用的依赖追踪和上下文推断机制,MLP 层则倾向于存储特定领域的模式和统计规律。正因如此,注意力层从 NCA 到语言的迁移是“万金油”式的,而 MLP 的迁移效果取决于源域和目标域之间的匹配程度。

研究中另一个值得关注的发现有关于复杂性匹配。团队使用 gzip 压缩率作为 NCA 轨迹复杂性的度量,压缩率低意味着数据更有规律、更可预测,压缩率高则意味着更丰富的时空结构。他们把 NCA 数据按压缩率分成几个区间(20-30%、30-40%、40-50%、50% 以上),分别测试各区间对不同下游领域的迁移效果。

结果表明,网页文本和数学文本从高复杂度 NCA(50%+ 压缩率)中受益最大,而代码领域的最优区间在中等复杂度(30-40%)。有意思的是,这恰好与目标语料自身的复杂度特征对齐,OpenWebText 和 OpenWebMath 的 gzip 压缩率在 60-70%,CodeParrot 则只有 32%。

这意味着,合成数据不是“越多越好”或“越复杂越好”,而是需要与目标领域的计算特征相匹配。研究者称之为“domain-targeted data design”,一种自然语言训练中不存在的调控杠杆。你无法轻易改变英语的统计特性,但你可以调整 NCA 的规则空间、字母表大小、复杂度分布,让它精确匹配你想要训练的能力。

这项工作的理论背景可以追溯到几条学术脉络。一条是 MIT 同校 Phillip Isola 团队在 2024 年提出的“柏拉图表征假说”(Platonic Representation Hypothesis),核心观点是不同模态、不同架构的 AI 模型,随着规模增大,内部表征正在趋同,仿佛都在逼近对现实世界的某种共同的统计模型。如果这个假说成立,那么从非语言数据中能学到与语言相通的表征,就不那么令人惊讶了。

,它指出对于计算能力有限的观察者而言,简单的确定性过程也能生成需要学习才能把握的结构信息。经典信息论认为确定性变换不能增加信息量,但那假设的是全知全能的观察者;对于一个有限容量的 transformer 来说,生命游戏中涌现的滑翔机和碰撞图案,确实包含了它必须“理解”才能预测的东西。

关于“为什么 1.6 亿 token 的自动机数据能胜过 16 亿 token 的英语”,研究者给出的解释是:在远低于计算最优规模的 token 预算下(Chinchilla 定律建议 16 亿参数模型需要约 320 亿 token),自然语言训练主要在学习浅层的局部模式,比如词汇搭配、句法片段这些“表面功夫”。

而 NCA 数据由于每条序列都对应一个独特的动力学规则,多样性极高,冗余性极低,每个 token 都在训练模型做深层的规则推断。加之 Abbas 等人(2023 年)的研究已经表明大规模自然语言数据集内部存在大量语义冗余,NCA 在 token 效率上的优势就变得可以理解了。

不过,目前这个实验的规模还限于 16 亿参数,距离工业级的千亿参数模型还有数量级的差距。NCA 预训练的增益随模型规模增大而递减,400M 模型改善了 8.6%,1.6B 模型改善了 5.7%,这个趋势在更大规模上是否会完全消失,目前还不清楚。

此外,对于较大字母表(n=10, 15)的 NCA,收益在一定 token 预算后出现饱和甚至下降,说明简单地“生成更多 NCA 数据”并不是万能解法。如何从理论上指导合成数据的生成,使其精确匹配目标领域的计算特征,仍然是一个开放的研究问题。

但研究者们的期望不止于此。论文的结尾写道,他们的最终愿景是完全用干净的合成数据做预训练,只在最后阶段用少量经过精心筛选的自然语言来获取语义。当前的“预预训练”框架是这个范式的早期原型。

参考资料:

1.https://arxiv.org/pdf/2603.10055

阅读最新前沿科技趋势报告,请访问21世纪关键技术研究院的“未来知识库”


未来知识库是 “21世纪关键技术研究院”建 立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告

(加入未来知识库,全部资料免费阅读和下载)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
华南快速路一期8月7日起零收费,上班族最高可月省近500元通勤费

华南快速路一期8月7日起零收费,上班族最高可月省近500元通勤费

新快报新闻
2026-03-31 08:02:08
东契奇被贱卖气坏库班!直言:我不后悔卖队,只后悔卖给错的人

东契奇被贱卖气坏库班!直言:我不后悔卖队,只后悔卖给错的人

仰卧撑FTUer
2026-03-31 08:01:01
奥运冠军“拉拉链露胸”,让耐克绷不住了!

奥运冠军“拉拉链露胸”,让耐克绷不住了!

品牌营销报
2026-02-23 11:31:10
吴向飞再回应李荣浩:这些年只要我参与的诉讼,最终对方全部败诉

吴向飞再回应李荣浩:这些年只要我参与的诉讼,最终对方全部败诉

小徐讲八卦
2026-03-30 07:47:00
他是张治中的女婿、国军军长,49年不起义不对抗,而是远走香港

他是张治中的女婿、国军军长,49年不起义不对抗,而是远走香港

诺言卿史录
2026-03-31 08:55:29
苹果iOS26.5发布,电池史诗级提升,信号很强,建议升级

苹果iOS26.5发布,电池史诗级提升,信号很强,建议升级

库克啥都聊
2026-03-31 09:39:34
安切洛蒂:维尼修斯和马金状态很好,但踢克罗地亚他俩都不上

安切洛蒂:维尼修斯和马金状态很好,但踢克罗地亚他俩都不上

懂球帝
2026-03-31 00:20:07
水木年华卢庚戌发文称其原创歌曲《爱上你我很快乐》被大量侵权,要求已使用这首歌商演者补上版权费,并将捐出此次收到的全部版权费

水木年华卢庚戌发文称其原创歌曲《爱上你我很快乐》被大量侵权,要求已使用这首歌商演者补上版权费,并将捐出此次收到的全部版权费

极目新闻
2026-03-30 18:44:12
旧卡充值余额全部认领,广州知名餐饮品牌“复活”!

旧卡充值余额全部认领,广州知名餐饮品牌“复活”!

红餐网
2026-03-31 10:57:05
央视直播乒乓球时间表:3月31日CCTV5直播国乒!附世界杯今日赛程

央视直播乒乓球时间表:3月31日CCTV5直播国乒!附世界杯今日赛程

皮皮观天下
2026-03-31 07:13:47
国产顶级神剧,只可惜,央视播完就禁了

国产顶级神剧,只可惜,央视播完就禁了

独立鱼
2026-03-23 21:22:17
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
NBA官方:联盟已撤销昨日杨瀚森和朱利安-里斯的技术犯规

NBA官方:联盟已撤销昨日杨瀚森和朱利安-里斯的技术犯规

懂球帝
2026-03-31 11:37:11
世界杯附加赛六大战役即将打响!意大利领衔!亚洲伊拉克出战

世界杯附加赛六大战役即将打响!意大利领衔!亚洲伊拉克出战

运动帮
2026-03-31 09:47:42
于东来婉拒市长饭局!

于东来婉拒市长饭局!

李万卿
2026-03-30 14:42:16
055舰艇刚满十艘,造船厂却突然曝出“秘密”——真正的海军实力才刚展现

055舰艇刚满十艘,造船厂却突然曝出“秘密”——真正的海军实力才刚展现

阿芒娱乐说
2026-03-30 17:02:35
上海36岁女销售带娃闪婚23岁退伍拆迁户

上海36岁女销售带娃闪婚23岁退伍拆迁户

放开他让wo来
2026-03-28 16:26:49
纪实:99年,河北一女死刑犯在狱中离奇怀孕,只因长得太美

纪实:99年,河北一女死刑犯在狱中离奇怀孕,只因长得太美

小月文史
2025-03-19 15:45:52
爸妈送我一套房,房本只有我自己的名字,背70万高利贷的堂哥上门

爸妈送我一套房,房本只有我自己的名字,背70万高利贷的堂哥上门

小秋情感说
2026-03-26 09:18:24
大结局要来?鲁比奥给出停战时间表,伊朗向日本求助,以军扛不住

大结局要来?鲁比奥给出停战时间表,伊朗向日本求助,以军扛不住

Ck的蜜糖
2026-03-31 11:39:53
2026-03-31 12:11:01
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4619文章数 37441关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

牛弹琴:中东新的大麻烦来了 特朗普又盯上了新目标

头条要闻

牛弹琴:中东新的大麻烦来了 特朗普又盯上了新目标

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

丝芭传媒举报鞠婧祎:瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

汽车要闻

16万级最强2.0T 全新一代瑞虎9来了

态度原创

本地
时尚
艺术
家居
公开课

本地新闻

用Color Walk的方式解锁城市春日

妈妈们的人生,不该只有一个选项

艺术要闻

石涛『野色册』

家居要闻

新婚爱巢 甜蜜情趣拉满

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版