网易首页 > 网易号 > 正文 申请入驻

不用任何人类语言训练,大模型反而更强了?

0
分享至

机器之心编辑部

如果有一天,大模型不再依赖人类语言训练,会发生什么?

过去几年,大模型能力的飞跃几乎都建立在一个前提之上:海量文本数据。互联网、书籍、代码、论文,几乎所有人类留下的语言痕迹,都被当作训练数据。但随着高质量文本逐渐逼近枯竭,研究者开始提出一个更激进的问题:

语言,真的必须是智能的起点吗?

最新的一项研究给出了一个令人意外的答案:也许不需要。他们假设让语言模型在学习语言之前,先在完全非语言的合成数据上进行训练。

论文使用了一种完全不同的数据来源:在神经细胞自动机(Neural Cellular Automata, NCA)生成的数据上对 Transformer 进行预预训练(pre-pre-training)—— 这些数据完全是合成的,不包含任何语言内容。

结果显示,这种方法能够将语言建模性能提升最多 6%,将训练收敛速度加快 40%,并增强模型在下游任务中的推理能力。

这种方式的效果甚至超过了在自然文本上进行预预训练(pre-pre-training)的模型。





  • 论文标题:Training Language Models via Neural Cellular Automata
  • 论文地址:https://arxiv.org/pdf/2603.10055
  • 博客:https://hanseungwook.github.io/blog/nca-pre-pre-training/

自然语言,真的是通向智能的唯一道路吗?

本文的核心假设是:语言之所以适合用于预训练,关键并不在于它的语义,而在于它所具备的结构。如果这一点成立,那么那些同样具有丰富结构、但并非语言形式的数据,理论上也可能被用来训练智能系统。

在得出这一假设之后,本文提出利用 NCA 生成合成的、非语言数据,用于对大语言模型进行预预训练(pre-pre-training),即先在合成数据上训练,再在自然语言上继续训练。

值得一提的是,预预训练是本文提出的一种训练范式,模型先学习 NCA 序列,然后再在语料库上预训练,最后微调。



NCA 数据具有丰富的时空结构,其统计特性在某些方面与自然语言相似,同时又可控且易于大规模低成本生成。

另外,NCA 是对康威生命游戏(Conway’s Game of Life)(Gardner,1970)等系统的一种推广:它通过用神经网络替代固定的动力学规则,来定义系统的演化过程,并能够在空间局部规则的基础上生成多样化的数据分布。

这种机制能够产生任意规模的长程时空模式(见图 1),并呈现出重尾(heavy-tailed)、齐夫定律的 token 分布,这一统计特性与自然数据十分相似。



在这种框架下,每一个随机采样得到的神经网络都会对应一套独特的状态转移规则,从而在网格上产生丰富多样的时空动态演化。

当这些系统在较长时间尺度上不断展开运行时,便会涌现出一系列复杂行为:从快速收敛到固定吸引子状态的简单模式,到随着时间逐渐演化形成的复杂结构,呈现出极为丰富的动态形态谱系。



这些 NCA 的演化轨迹会被离散化为序列(通过 2×2 的图块 patch 进行分块,类似视觉 Transformer 的处理方式),随后输入到一个标准 Transformer 模型中,并通过下一 token 预测进行训练。

关键之处在于:由于每一条序列都对应着一条独特的潜在演化规则(latent rule),模型要想正确预测接下来会发生什么,就必须在上下文中推断出这条规则。

而这种在上下文中推断规则的能力,正是语言模型中许多核心推理能力得以产生的基础。

出人意料的结果

在相同的 token 预算(每种设置均为 1.64 亿 tokens) 下,使用 NCA 进行预预训练(pre-pre-training) 的模型优于以下几种方案:

  • 从零开始训练;
  • 使用自然语言数据(C4)进行预预训练;
  • 使用其他合成数据(如 Dyck)进行预预训练。

这种优势在网页文本、数学以及代码任务上都得到很好的体现。

更重要的是,这种提升不仅仅体现在收敛速度更快,还体现在最终困惑度(perplexity)更低,也就是说模型在最终性能上同样更强。





这些在语言建模上的性能提升,也能够迁移到真实的推理基准测试中:



更令人惊讶的是,作者发现:在相同规模的数据条件下,这种非语言的 NCA 数据表现反而优于自然语言数据。

因此,作者进一步进行了测试:如果给 C4 大约 10 倍的数据会发生什么?

在新的实验中,他们将 C4 的预预训练(pre-pre-training)规模扩大到 16 亿 tokens,而 NCA 仍然保持在 1.64 亿 tokens。

即便在这种数据规模明显占优的情况下,NCA 训练的模型依然表现更好:

  • 收敛速度快 1.4 倍;
  • 最终困惑度(perplexity)降低约 5%。



1.64 亿 tokens 的自动机数据,击败了 16 亿 tokens 的自然语言。

作者认为,这种差异反映了不同数据源在不同规模下所教会模型的能力差异。

在 16 亿 tokens 的规模下,这仍然远低于计算最优规模(compute-optimal scale),C4 数据主要让模型学到的是浅层、局部的统计模式。

而每一条 NCA 序列都会迫使模型:在上下文中推断出一个潜在规则(即 in-context learning),并在后续预测中持续一致地应用这一规则。

换句话说,相比于自然语言中大量重复的语言模式,NCA 数据在每个 token 上提供了更多样的函数结构。

这种每个 token 所携带的高多样性规则学习信号,似乎更高效地帮助模型构建能够迁移到语言任务中的通用表示能力。

是什么驱动了这种迁移?

首先,作者发现注意力是核心载体。重新初始化实验表明,注意力层承载了最具可迁移性的计算原语。而 MLP 层更多编码的是领域特定的知识,只有在源任务与目标任务相匹配时,这些知识才具有可迁移性。

其次是复杂度需要匹配。最优的 NCA 复杂度会随着应用领域而变化:代码任务更受益于较简单的动态规则,而数学和网页文本任务则更偏好更复杂的动态结构。这为针对特定领域进行定制化训练提供了一种新的调节手段。

接着是结构,而非语义。NCA 数据完全不包含任何语言内容,却依然能够训练模型去跟踪长程依赖关系并推断潜在规则,而这些能力正是语言理解与推理所需要的核心能力。

最后是效率优于规模。更多的合成数据并不一定带来更好的效果。相比单纯增加数据量,校准数据生成机制的复杂度更为关键,这使得在更少计算资源下实现更高效的训练成为可能。

更纯粹的训练信号

在 token 规模较小的情况下,自然语言预训练主要让模型学到的是浅层的统计模式。模型往往依赖语义捷径(semantic shortcuts)和词语共现先验(co-occurrence priors)来完成预测,而不是从结构本身学习推理能力。

相比之下,NCA 序列中完全不存在这样的语义捷径。

每一条 NCA 演化轨迹都由一条隐藏的状态转移规则生成,这条规则来自一个随机采样的神经网络,模型必须仅通过上下文信息来推断它。由于没有任何语义内容可以依赖,每一个 token 都在迫使模型进行上下文规则推断:观察序列 → 假设潜在规则 → 在后续预测中持续应用该规则。

这一过程实际上复现了语言模型的一项核心能力:上下文学习。

此外,NCA 的规则来自可计算函数的一个通用类别,其中一些甚至可以实现图灵完备系统。因此,这一规则分布的空间过于庞大,无法通过记忆来覆盖。模型不得不学习一种通用的规则推断机制,而不是简单记住某些特定规则。

实验结果也支持这一点:最具可迁移性的结构主要存在于注意力层,而不是 MLP 层。已有研究表明,上下文学习能力的出现与归纳头(induction heads)的形成密切相关,这是一种注意力电路,可以从序列前部复制并应用模式到后续位置。

而 NCA 的预预训练过程恰恰只奖励这种行为,因此很可能在语言训练开始之前,就更早且更稳固地促成这些注意力电路的形成。

超越「一刀切」的训练方式

这项研究为语言模型训练打开了一条全新的控制维度。过去,人们通常将训练数据分布视为既定条件;而现在,可以通过调节合成数据的结构,使其更好地匹配特定目标领域。

例如:对于代码任务,可以使用更简单的 NCA 规则;而在基因序列建模等场景中,则可以设计具有更丰富长程动态结构的规则。

这一方向的长期愿景是:基础模型先通过完全合成的数据获得推理能力,再通过一小部分精心筛选的自然语言语料学习语义。

这样一来,我们或许能够构建出一种新的模型体系,能够进行推理,却不会在一开始就继承人类文本中的各种偏见。

因此,问题已经不再是:合成预训练是否可行,而是:它究竟能够走多远。

参考链接:https://hanseungwook.github.io/blog/nca-pre-pre-training/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
放假喜讯传来!2026年中小学暑假时间确定,最长足足70天!

放假喜讯传来!2026年中小学暑假时间确定,最长足足70天!

牛锅巴小钒
2026-05-11 12:59:36
释永信被一女子爆料:她们姐妹住少林寺3天,争着往释永信房间跑

释永信被一女子爆料:她们姐妹住少林寺3天,争着往释永信房间跑

江山挥笔
2026-03-23 15:40:31
全职爸爸靠帅脸火了,全网却为他的“豪门婚姻”吵翻了

全职爸爸靠帅脸火了,全网却为他的“豪门婚姻”吵翻了

妈咪OK
2026-05-08 19:54:01
未来3年贵人追着送钱的生肖:存款滚雪球,一年更比一年好!

未来3年贵人追着送钱的生肖:存款滚雪球,一年更比一年好!

毅谈生肖
2026-05-11 11:10:19
11年前优衣库男女主现状曝光,他们还在一起生了两个孩子

11年前优衣库男女主现状曝光,他们还在一起生了两个孩子

半糖甜而不腻
2026-04-06 12:09:15
推迟发布iPhone18,苹果用iPhone17锁死安卓高端?

推迟发布iPhone18,苹果用iPhone17锁死安卓高端?

互联网放大镜
2026-05-11 10:16:55
人民日报痛批大学生 “沉睡” 现象:躺平四年,毕业真的会失业!

人民日报痛批大学生 “沉睡” 现象:躺平四年,毕业真的会失业!

复转这些年
2026-03-25 10:02:32
生活由普京担保,来中国疗养,叶利钦人生中最后那8年过得怎样?

生活由普京担保,来中国疗养,叶利钦人生中最后那8年过得怎样?

云霄纪史观
2026-04-25 20:20:46
英超最新积分榜:维拉掉链子,阿森纳惊险绝杀,曼城夺冠希望渺茫

英超最新积分榜:维拉掉链子,阿森纳惊险绝杀,曼城夺冠希望渺茫

足球狗说
2026-05-11 06:19:33
爽,张本智和被日媒点名!“数典忘祖”的人,多忠心,也是笑谈

爽,张本智和被日媒点名!“数典忘祖”的人,多忠心,也是笑谈

开成运动会
2026-05-11 12:13:43
旺铺是演的,流水是假的,这些加盟骗局专坑普通人?

旺铺是演的,流水是假的,这些加盟骗局专坑普通人?

世界圈
2026-05-10 08:45:37
韦东奕形象大变,简直像换了个人!韦神包换了,头发少了,老了许多,变的洋气了不少!

韦东奕形象大变,简直像换了个人!韦神包换了,头发少了,老了许多,变的洋气了不少!

白宸侃片
2026-05-08 12:09:25
貔貅认主不看财富,这四个生肖千万别碰,戴了反而会破财

貔貅认主不看财富,这四个生肖千万别碰,戴了反而会破财

纸鸢奇谭
2026-04-13 16:06:54
高市早苗好狠:赶在特朗普访华前,给了他一刀,连中国都没想到!

高市早苗好狠:赶在特朗普访华前,给了他一刀,连中国都没想到!

动漫里的童话
2026-05-11 09:47:26
45岁才明白:微信上基本不发朋友圈的,十有八九是这两种人

45岁才明白:微信上基本不发朋友圈的,十有八九是这两种人

心理观察局
2026-05-08 09:43:07
张本智和又食言了!赛前:彻底清算一定夺金!输球后目光呆滞!

张本智和又食言了!赛前:彻底清算一定夺金!输球后目光呆滞!

篮球资讯达人
2026-05-11 02:34:50
全国政协委员:建议机关事业单位职工双休日调整为“隔周三休”!

全国政协委员:建议机关事业单位职工双休日调整为“隔周三休”!

职场资深秘书
2026-05-10 16:17:06
央视主持人朱迅:生命终将结束,为何不勇敢面对生命的终点呢?

央视主持人朱迅:生命终将结束,为何不勇敢面对生命的终点呢?

标体
2026-05-11 11:36:14
明十三陵被挖后,怪异之事接连不断地发生,至今都无法合理解释

明十三陵被挖后,怪异之事接连不断地发生,至今都无法合理解释

派大鑫
2026-05-11 07:51:27
公安局交管大队队长被举报在KTV违规饮酒与女性举止亲密?当事人:喝茶水,涉事女士突然过来,我下意识推开

公安局交管大队队长被举报在KTV违规饮酒与女性举止亲密?当事人:喝茶水,涉事女士突然过来,我下意识推开

观威海
2026-05-11 09:30:04
2026-05-11 15:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12968文章数 142648关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

教育
数码
房产
时尚
军事航空

教育要闻

鸡娃放养,都不如养个“晨型人格”的孩子,他会自信又自律

数码要闻

努比亚推出GT Buds耳机:支持35dB降噪,269元

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

衬衫四季都能穿!简约大方适合日常穿搭,配裤子、裙子都好看

军事要闻

特朗普:伊朗的回应“完全不可接受”

无障碍浏览 进入关怀版