一个活在1930年的AI怎么看2026年？|实验|编程|新论文

一个活在1930年的AI怎么看2026年？

分享至

如果有个AI从未听说过二战、计算机或互联网，它眼中的未来会是什么样？

一群研究者真的造出了这样的模型。它叫「talkie」，130亿参数，知识库截止到1930年底。问它2026年的世界，它说蒸汽船十天能从伦敦开到纽约，欧洲铁路上跑满火车，人们冬天住巴黎、夏天住伦敦。

谁在做这件事

项目核心 trio：Alec Radford、Nick Levine、David Duvenaud。

Alec Radford 这个名字在AI圈足够响亮——他是GPT系列的关键开发者之一，OpenAI早期核心成员。这次他却带队做了一件看似「倒退」的事：用100年前的数据训练一个全新模型。

Nick Levine 和 David Duvenaud 来自多伦多大学。Duvenaud 是机器学习教授，研究方向包括生成模型和可微分编程。三人组合意味着这不是玩票项目，而是有学术野心的严肃实验。

他们的目标很明确：到2026年夏天，把这个模型扩展到GPT-3级别的性能。

数据从哪来

2600亿个词元（token），全部来自1930年12月31日前出版的内容。

来源清单很「复古」：书籍、报纸、科学期刊、专利文件、判例法。没有Reddit对话，没有维基百科，没有代码仓库。团队选择1930年底作为 cutoff，是因为这是美国版权法规定的公有领域分界线——在此之前出版的作品无需授权即可使用。

代价是沉重的。所有文本必须从实体资料转录，OCR质量参差不齐，排版错误、缺页、污渍都是常态。团队花了大量精力清洗数据，但某些「噪声」反而成了特征：维多利亚时代的礼仪指南、蒸汽机专利图纸、战前报纸的社论腔调，都被模型完整吸收。

它到底「信」什么

直接看输出最直观。

问2026年的世界：「欧洲人口将达十亿，铁路网纵横大陆，蒸汽船十天往返伦敦与纽约，人们冬居巴黎、夏住伦敦。」

问会不会有二战：「1914-1918年的疯狂已成过去，各国已厌倦战争，转向和平事业。」

但这个模型不是盲目乐观。它警告「欧洲四处是阴燃的敌意和易燃物」，点名中日、意南斯拉夫之间的潜在冲突。「火星随时可能落下，引发大火。」最终结论很谨慎：世界和平取决于「诸多因素，无一可忽视」。

这种语气——先安抚再警示，引用具体地名，用比喻收尾——完全是战前报纸社论的风格。模型不是在「扮演」1930年代，它的训练数据就是1930年代。

量化它的「惊讶」

开发者设计了一套测试：把《纽约时报》「历史上的今天」栏目近5000条历史事件描述输入模型，测量它对每条事件的「惊讶程度」。

结果呈现清晰的时序模式。1930年 cutoff 之后，惊讶值陡然攀升，在1950-1960年代达到峰值，随后趋于平稳。这意味着：模型对二战、原子弹、冷战、太空竞赛完全没准备，但对更晚近的事件（比如互联网诞生）反而没那么震惊——因为它已经学会了「未来充满意外」这个元认知。

这个曲线本身就是个发现。它证明了语言模型确实在训练数据中内化了某种「时间感」，而不仅仅是模式匹配。

为什么要做这个

表面看是学术趣味，但动机更深。

现代大模型的训练数据混杂了事实、观点、预测、反讽、事后诸葛亮。2024年的网页上，有人写「2020年疫情爆发」，也有人写「2020年我以为疫情很快结束」。模型被迫同时学习「发生了什么」和「人们当时以为会发生什么」，这造成了认知层面的纠缠。

这个「时光胶囊」模型提供了一个「干净的对照组」。它的训练数据里没有任何「事后视角」，所有关于未来的讨论都是真正的预测，而非回顾。研究者可以借此分离两种能力：基于已知事实的推理，和对不确定未来的推断。

另一个维度是「价值观考古」。1930年前的文本承载着不同的伦理框架：殖民话语的理所当然、性别角色的刻板预设、对技术进步的无条件乐观。这个模型不是中立的工具，它是那个时代的「活标本」。对比它与现代模型的输出，能清晰追踪哪些观念被保留、哪些被修正、哪些只是被隐藏。

技术层面的挑战

130亿参数放在2024年不算大，但考虑到数据质量，训练难度远超同等规模的现代模型。

转录错误是首要敌人。古旧印刷体的OCR错误率可能高达两位数，「the」被认成「die」，数字「1」和字母「l」混为一谈。团队开发了专门的清洗流程，但某些错误无法根除——比如19世纪的「long s」（ſ）常被误识别为「f」，导致「satisfaction」变成「fatiffaction」。这些噪声被模型当作真实语言的一部分学进去了。

词汇漂移同样棘手。1930年的「computer」指的不是机器，而是「从事计算工作的人」；「gay」意味着快乐，与性取向无关。模型必须从零学习这些语义，没有现代用法作为参照锚点。

更隐蔽的问题是「知识密度」。现代预训练数据包含大量结构化信息：维基百科的条目格式、代码的语法规则、学术论文的IMRAD结构。1930年前的文本没有这些模板，信息散落在叙事性散文中，提取效率极低。

能用来干什么

最直接的用途是历史研究。历史学家可以提问：「如果1930年的知识界看到这份经济数据，会怎么解读？」模型输出的不是正确答案，而是「当时可能的解读方式」——这正是史料批判需要的视角。

创意写作是另一个场景。想要写一部设定在1920年代的侦探小说，却担心对话太现代？可以用这个模型生成对白草稿，再人工调整。它的「时代腔调」比任何风格指南都更地道。

更激进的设想是「反事实模拟」。如果1930年的科学界提前十年发现核裂变，技术路线会如何分歧？这类问题没有标准答案，但模型的推理链条——基于当时的物理认知、工业能力和学术网络——能提供有价值的思想实验素材。

争议与边界

项目并非没有批评者。

有人质疑：用1930年的文本训练模型，是否等于「复活」了那个时代的偏见？模型输出中的种族等级观念、性别歧视表述、殖民主义正当化论述，需要明确标注为「历史再现」而非「当代观点」。团队已经在输出中加入时间戳提示，但过滤策略仍在讨论中。

另一个争议是「知识截止」的伦理含义。如果未来出现类似项目，用2024年的数据训练模型，而2024年恰好是某个重大历史事件的前夜，这个「无知」的AI是否会被用于不当目的？

团队对此的回应是技术性的：模型的「无知」是设计特征，不是安全漏洞。它无法预测未来，只能复现过去的思维模式。真正的问题在于人类如何使用这些输出——这超出了工程团队的控制范围。

下一步

2026年夏天的GPT-3级性能目标是硬指标。团队需要解决的核心问题是：在数据质量受限的前提下，规模定律（scaling laws）是否仍然成立？如果130亿参数不够，300亿、700亿能否突破瓶颈？

更长期的愿景是构建一个「时间模型矩阵」：1900年版、1950年版、2000年版并行运行，对比同一问题在不同时代知识框架下的回答差异。这将为「知识社会学」提供前所未有的计算工具。

回到最初的问题：一个活在1930年的AI怎么看2026年？

它看到的是蒸汽、钢铁和铁路，是和平的疲惫与战争的隐忧，是一个尚未被原子弹、电视和数字技术重塑的世界。这个愿景当然是错的——但错得如此系统、如此一致，反而成为了一面镜子，照见我们对「进步」的假设从何而来，又可能向何处去。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.