网易首页 > 网易号 > 正文 申请入驻

不用任何人类语言训练,大模型反而更强了?

0
分享至

机器之心编辑部

如果有一天,大模型不再依赖人类语言训练,会发生什么?

过去几年,大模型能力的飞跃几乎都建立在一个前提之上:海量文本数据。互联网、书籍、代码、论文,几乎所有人类留下的语言痕迹,都被当作训练数据。但随着高质量文本逐渐逼近枯竭,研究者开始提出一个更激进的问题:

语言,真的必须是智能的起点吗?

最新的一项研究给出了一个令人意外的答案:也许不需要。他们假设让语言模型在学习语言之前,先在完全非语言的合成数据上进行训练。

论文使用了一种完全不同的数据来源:在神经细胞自动机(Neural Cellular Automata, NCA)生成的数据上对 Transformer 进行预预训练(pre-pre-training)—— 这些数据完全是合成的,不包含任何语言内容。

结果显示,这种方法能够将语言建模性能提升最多 6%,将训练收敛速度加快 40%,并增强模型在下游任务中的推理能力。

这种方式的效果甚至超过了在自然文本上进行预预训练(pre-pre-training)的模型。





  • 论文标题:Training Language Models via Neural Cellular Automata
  • 论文地址:https://arxiv.org/pdf/2603.10055
  • 博客:https://hanseungwook.github.io/blog/nca-pre-pre-training/

自然语言,真的是通向智能的唯一道路吗?

本文的核心假设是:语言之所以适合用于预训练,关键并不在于它的语义,而在于它所具备的结构。如果这一点成立,那么那些同样具有丰富结构、但并非语言形式的数据,理论上也可能被用来训练智能系统。

在得出这一假设之后,本文提出利用 NCA 生成合成的、非语言数据,用于对大语言模型进行预预训练(pre-pre-training),即先在合成数据上训练,再在自然语言上继续训练。

值得一提的是,预预训练是本文提出的一种训练范式,模型先学习 NCA 序列,然后再在语料库上预训练,最后微调。



NCA 数据具有丰富的时空结构,其统计特性在某些方面与自然语言相似,同时又可控且易于大规模低成本生成。

另外,NCA 是对康威生命游戏(Conway’s Game of Life)(Gardner,1970)等系统的一种推广:它通过用神经网络替代固定的动力学规则,来定义系统的演化过程,并能够在空间局部规则的基础上生成多样化的数据分布。

这种机制能够产生任意规模的长程时空模式(见图 1),并呈现出重尾(heavy-tailed)、齐夫定律的 token 分布,这一统计特性与自然数据十分相似。



在这种框架下,每一个随机采样得到的神经网络都会对应一套独特的状态转移规则,从而在网格上产生丰富多样的时空动态演化。

当这些系统在较长时间尺度上不断展开运行时,便会涌现出一系列复杂行为:从快速收敛到固定吸引子状态的简单模式,到随着时间逐渐演化形成的复杂结构,呈现出极为丰富的动态形态谱系。



这些 NCA 的演化轨迹会被离散化为序列(通过 2×2 的图块 patch 进行分块,类似视觉 Transformer 的处理方式),随后输入到一个标准 Transformer 模型中,并通过下一 token 预测进行训练。

关键之处在于:由于每一条序列都对应着一条独特的潜在演化规则(latent rule),模型要想正确预测接下来会发生什么,就必须在上下文中推断出这条规则。

而这种在上下文中推断规则的能力,正是语言模型中许多核心推理能力得以产生的基础。

出人意料的结果

在相同的 token 预算(每种设置均为 1.64 亿 tokens) 下,使用 NCA 进行预预训练(pre-pre-training) 的模型优于以下几种方案:

  • 从零开始训练;
  • 使用自然语言数据(C4)进行预预训练;
  • 使用其他合成数据(如 Dyck)进行预预训练。

这种优势在网页文本、数学以及代码任务上都得到很好的体现。

更重要的是,这种提升不仅仅体现在收敛速度更快,还体现在最终困惑度(perplexity)更低,也就是说模型在最终性能上同样更强。





这些在语言建模上的性能提升,也能够迁移到真实的推理基准测试中:



更令人惊讶的是,作者发现:在相同规模的数据条件下,这种非语言的 NCA 数据表现反而优于自然语言数据。

因此,作者进一步进行了测试:如果给 C4 大约 10 倍的数据会发生什么?

在新的实验中,他们将 C4 的预预训练(pre-pre-training)规模扩大到 16 亿 tokens,而 NCA 仍然保持在 1.64 亿 tokens。

即便在这种数据规模明显占优的情况下,NCA 训练的模型依然表现更好:

  • 收敛速度快 1.4 倍;
  • 最终困惑度(perplexity)降低约 5%。



1.64 亿 tokens 的自动机数据,击败了 16 亿 tokens 的自然语言。

作者认为,这种差异反映了不同数据源在不同规模下所教会模型的能力差异。

在 16 亿 tokens 的规模下,这仍然远低于计算最优规模(compute-optimal scale),C4 数据主要让模型学到的是浅层、局部的统计模式。

而每一条 NCA 序列都会迫使模型:在上下文中推断出一个潜在规则(即 in-context learning),并在后续预测中持续一致地应用这一规则。

换句话说,相比于自然语言中大量重复的语言模式,NCA 数据在每个 token 上提供了更多样的函数结构。

这种每个 token 所携带的高多样性规则学习信号,似乎更高效地帮助模型构建能够迁移到语言任务中的通用表示能力。

是什么驱动了这种迁移?

首先,作者发现注意力是核心载体。重新初始化实验表明,注意力层承载了最具可迁移性的计算原语。而 MLP 层更多编码的是领域特定的知识,只有在源任务与目标任务相匹配时,这些知识才具有可迁移性。

其次是复杂度需要匹配。最优的 NCA 复杂度会随着应用领域而变化:代码任务更受益于较简单的动态规则,而数学和网页文本任务则更偏好更复杂的动态结构。这为针对特定领域进行定制化训练提供了一种新的调节手段。

接着是结构,而非语义。NCA 数据完全不包含任何语言内容,却依然能够训练模型去跟踪长程依赖关系并推断潜在规则,而这些能力正是语言理解与推理所需要的核心能力。

最后是效率优于规模。更多的合成数据并不一定带来更好的效果。相比单纯增加数据量,校准数据生成机制的复杂度更为关键,这使得在更少计算资源下实现更高效的训练成为可能。

更纯粹的训练信号

在 token 规模较小的情况下,自然语言预训练主要让模型学到的是浅层的统计模式。模型往往依赖语义捷径(semantic shortcuts)和词语共现先验(co-occurrence priors)来完成预测,而不是从结构本身学习推理能力。

相比之下,NCA 序列中完全不存在这样的语义捷径。

每一条 NCA 演化轨迹都由一条隐藏的状态转移规则生成,这条规则来自一个随机采样的神经网络,模型必须仅通过上下文信息来推断它。由于没有任何语义内容可以依赖,每一个 token 都在迫使模型进行上下文规则推断:观察序列 → 假设潜在规则 → 在后续预测中持续应用该规则。

这一过程实际上复现了语言模型的一项核心能力:上下文学习。

此外,NCA 的规则来自可计算函数的一个通用类别,其中一些甚至可以实现图灵完备系统。因此,这一规则分布的空间过于庞大,无法通过记忆来覆盖。模型不得不学习一种通用的规则推断机制,而不是简单记住某些特定规则。

实验结果也支持这一点:最具可迁移性的结构主要存在于注意力层,而不是 MLP 层。已有研究表明,上下文学习能力的出现与归纳头(induction heads)的形成密切相关,这是一种注意力电路,可以从序列前部复制并应用模式到后续位置。

而 NCA 的预预训练过程恰恰只奖励这种行为,因此很可能在语言训练开始之前,就更早且更稳固地促成这些注意力电路的形成。

超越「一刀切」的训练方式

这项研究为语言模型训练打开了一条全新的控制维度。过去,人们通常将训练数据分布视为既定条件;而现在,可以通过调节合成数据的结构,使其更好地匹配特定目标领域。

例如:对于代码任务,可以使用更简单的 NCA 规则;而在基因序列建模等场景中,则可以设计具有更丰富长程动态结构的规则。

这一方向的长期愿景是:基础模型先通过完全合成的数据获得推理能力,再通过一小部分精心筛选的自然语言语料学习语义。

这样一来,我们或许能够构建出一种新的模型体系,能够进行推理,却不会在一开始就继承人类文本中的各种偏见。

因此,问题已经不再是:合成预训练是否可行,而是:它究竟能够走多远。

参考链接:https://hanseungwook.github.io/blog/nca-pre-pre-training/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
网传苏州女司机撞到老人后被家属打死?记者核实:女司机耳部缝针治疗后已出院,后续仍需观察

网传苏州女司机撞到老人后被家属打死?记者核实:女司机耳部缝针治疗后已出院,后续仍需观察

扬子晚报
2026-03-25 20:25:53
俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

贱议你读史
2026-03-26 00:07:41
姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

懂球帝
2026-03-26 04:09:06
西甲希望之星杯:巴萨5-0上海海港,皇马4球大胜维达德

西甲希望之星杯:巴萨5-0上海海港,皇马4球大胜维达德

懂球帝
2026-03-26 14:33:09
伊朗愿意与“主和派”万斯谈!特朗普一边宣称胜利一边增兵中东:我和鲁比奥也要参与

伊朗愿意与“主和派”万斯谈!特朗普一边宣称胜利一边增兵中东:我和鲁比奥也要参与

红星新闻
2026-03-25 17:17:14
越南5年免签新政策4.1开始实施

越南5年免签新政策4.1开始实施

创作者_cLg1
2026-03-26 09:42:32
来消息了!日本船主协会会长突然爆出猛料!

来消息了!日本船主协会会长突然爆出猛料!

达文西看世界
2026-03-26 10:48:30
A股:刚刚,突传重大消息,两个信号,周四将迎来更大级别的变盘

A股:刚刚,突传重大消息,两个信号,周四将迎来更大级别的变盘

云鹏叙事
2026-03-26 00:00:06
看看伊朗东北方都是哪些国家,就知道伊朗为何如此淡定了

看看伊朗东北方都是哪些国家,就知道伊朗为何如此淡定了

孤云朗境
2026-03-06 20:43:36
辛纳在迈阿密比赛中险些误伤美国球星,赛后赶紧致歉

辛纳在迈阿密比赛中险些误伤美国球星,赛后赶紧致歉

网球之家
2026-03-26 13:25:54
大崩盘!骑士最多落后高达21分:全队三分15中3,哈登心不在焉

大崩盘!骑士最多落后高达21分:全队三分15中3,哈登心不在焉

体坛小李
2026-03-26 08:53:49
NBA西部:前10确定了,马刺有望争第1,快船抢7,湖人首轮遇火箭

NBA西部:前10确定了,马刺有望争第1,快船抢7,湖人首轮遇火箭

铁甲西奇
2026-03-26 16:43:09
泰国总理换新车支持国产!从劳斯莱斯到比亚迪,还向民众极力推荐

泰国总理换新车支持国产!从劳斯莱斯到比亚迪,还向民众极力推荐

削桐作琴
2026-03-26 18:14:58
你知道我在床上有多厉害吗?

你知道我在床上有多厉害吗?

果粉之家
2026-03-20 12:35:16
中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

澎湃新闻
2026-03-25 19:52:29
剖腹自尽?日本陆自军官持刀冲入中国大使馆,想杀中国外交员!

剖腹自尽?日本陆自军官持刀冲入中国大使馆,想杀中国外交员!

军武次位面
2026-03-26 14:26:42
张雪峰直播连炫7根雪糕,三口一根猛灌凉水:他哪是爱吃冰

张雪峰直播连炫7根雪糕,三口一根猛灌凉水:他哪是爱吃冰

风起见你
2026-03-26 07:57:51
好莱坞的AI招魂术:死亡不再是劳动的终点

好莱坞的AI招魂术:死亡不再是劳动的终点

动察Beating
2026-03-26 11:06:56
周杰伦《太阳之子》炸裂数据:182万张、7000万、3800万播放!

周杰伦《太阳之子》炸裂数据:182万张、7000万、3800万播放!

可乐谈情感
2026-03-26 13:42:47
巴萨旧将:当时赫莱布知道自己要离队,他往功能饮料里兑酒喝

巴萨旧将:当时赫莱布知道自己要离队,他往功能饮料里兑酒喝

懂球帝
2026-03-26 06:43:09
2026-03-26 19:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
本地
家居
健康
艺术

旅游要闻

世界那么大,来安美如画丨「与V四季行」倒计时1天,这份春日请柬请查收→

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

家居要闻

傍海而居 静观蝴蝶海

转头就晕的耳石症,能开车上班吗?

艺术要闻

哪一座桥不是风景?

无障碍浏览 进入关怀版