如果有个AI从未听说过二战、计算机或互联网,它眼中的未来会是什么样?
一群研究者真的造出了这样的模型。它叫「talkie」,130亿参数,知识库截止到1930年底。问它2026年的世界,它说蒸汽船十天能从伦敦开到纽约,欧洲铁路上跑满火车,人们冬天住巴黎、夏天住伦敦。
![]()
谁在做这件事
项目核心 trio:Alec Radford、Nick Levine、David Duvenaud。
Alec Radford 这个名字在AI圈足够响亮——他是GPT系列的关键开发者之一,OpenAI早期核心成员。这次他却带队做了一件看似「倒退」的事:用100年前的数据训练一个全新模型。
Nick Levine 和 David Duvenaud 来自多伦多大学。Duvenaud 是机器学习教授,研究方向包括生成模型和可微分编程。三人组合意味着这不是玩票项目,而是有学术野心的严肃实验。
他们的目标很明确:到2026年夏天,把这个模型扩展到GPT-3级别的性能。
数据从哪来
2600亿个词元(token),全部来自1930年12月31日前出版的内容。
来源清单很「复古」:书籍、报纸、科学期刊、专利文件、判例法。没有Reddit对话,没有维基百科,没有代码仓库。团队选择1930年底作为 cutoff,是因为这是美国版权法规定的公有领域分界线——在此之前出版的作品无需授权即可使用。
代价是沉重的。所有文本必须从实体资料转录,OCR质量参差不齐,排版错误、缺页、污渍都是常态。团队花了大量精力清洗数据,但某些「噪声」反而成了特征:维多利亚时代的礼仪指南、蒸汽机专利图纸、战前报纸的社论腔调,都被模型完整吸收。
它到底「信」什么
直接看输出最直观。
问2026年的世界:「欧洲人口将达十亿,铁路网纵横大陆,蒸汽船十天往返伦敦与纽约,人们冬居巴黎、夏住伦敦。」
问会不会有二战:「1914-1918年的疯狂已成过去,各国已厌倦战争,转向和平事业。」
但这个模型不是盲目乐观。它警告「欧洲四处是阴燃的敌意和易燃物」,点名中日、意南斯拉夫之间的潜在冲突。「火星随时可能落下,引发大火。」最终结论很谨慎:世界和平取决于「诸多因素,无一可忽视」。
这种语气——先安抚再警示,引用具体地名,用比喻收尾——完全是战前报纸社论的风格。模型不是在「扮演」1930年代,它的训练数据就是1930年代。
量化它的「惊讶」
开发者设计了一套测试:把《纽约时报》「历史上的今天」栏目近5000条历史事件描述输入模型,测量它对每条事件的「惊讶程度」。
结果呈现清晰的时序模式。1930年 cutoff 之后,惊讶值陡然攀升,在1950-1960年代达到峰值,随后趋于平稳。这意味着:模型对二战、原子弹、冷战、太空竞赛完全没准备,但对更晚近的事件(比如互联网诞生)反而没那么震惊——因为它已经学会了「未来充满意外」这个元认知。
这个曲线本身就是个发现。它证明了语言模型确实在训练数据中内化了某种「时间感」,而不仅仅是模式匹配。
为什么要做这个
表面看是学术趣味,但动机更深。
现代大模型的训练数据混杂了事实、观点、预测、反讽、事后诸葛亮。2024年的网页上,有人写「2020年疫情爆发」,也有人写「2020年我以为疫情很快结束」。模型被迫同时学习「发生了什么」和「人们当时以为会发生什么」,这造成了认知层面的纠缠。
这个「时光胶囊」模型提供了一个「干净的对照组」。它的训练数据里没有任何「事后视角」,所有关于未来的讨论都是真正的预测,而非回顾。研究者可以借此分离两种能力:基于已知事实的推理,和对不确定未来的推断。
另一个维度是「价值观考古」。1930年前的文本承载着不同的伦理框架:殖民话语的理所当然、性别角色的刻板预设、对技术进步的无条件乐观。这个模型不是中立的工具,它是那个时代的「活标本」。对比它与现代模型的输出,能清晰追踪哪些观念被保留、哪些被修正、哪些只是被隐藏。
技术层面的挑战
130亿参数放在2024年不算大,但考虑到数据质量,训练难度远超同等规模的现代模型。
转录错误是首要敌人。古旧印刷体的OCR错误率可能高达两位数,「the」被认成「die」,数字「1」和字母「l」混为一谈。团队开发了专门的清洗流程,但某些错误无法根除——比如19世纪的「long s」(ſ)常被误识别为「f」,导致「satisfaction」变成「fatiffaction」。这些噪声被模型当作真实语言的一部分学进去了。
词汇漂移同样棘手。1930年的「computer」指的不是机器,而是「从事计算工作的人」;「gay」意味着快乐,与性取向无关。模型必须从零学习这些语义,没有现代用法作为参照锚点。
更隐蔽的问题是「知识密度」。现代预训练数据包含大量结构化信息:维基百科的条目格式、代码的语法规则、学术论文的IMRAD结构。1930年前的文本没有这些模板,信息散落在叙事性散文中,提取效率极低。
能用来干什么
最直接的用途是历史研究。历史学家可以提问:「如果1930年的知识界看到这份经济数据,会怎么解读?」模型输出的不是正确答案,而是「当时可能的解读方式」——这正是史料批判需要的视角。
创意写作是另一个场景。想要写一部设定在1920年代的侦探小说,却担心对话太现代?可以用这个模型生成对白草稿,再人工调整。它的「时代腔调」比任何风格指南都更地道。
更激进的设想是「反事实模拟」。如果1930年的科学界提前十年发现核裂变,技术路线会如何分歧?这类问题没有标准答案,但模型的推理链条——基于当时的物理认知、工业能力和学术网络——能提供有价值的思想实验素材。
争议与边界
项目并非没有批评者。
有人质疑:用1930年的文本训练模型,是否等于「复活」了那个时代的偏见?模型输出中的种族等级观念、性别歧视表述、殖民主义正当化论述,需要明确标注为「历史再现」而非「当代观点」。团队已经在输出中加入时间戳提示,但过滤策略仍在讨论中。
另一个争议是「知识截止」的伦理含义。如果未来出现类似项目,用2024年的数据训练模型,而2024年恰好是某个重大历史事件的前夜,这个「无知」的AI是否会被用于不当目的?
团队对此的回应是技术性的:模型的「无知」是设计特征,不是安全漏洞。它无法预测未来,只能复现过去的思维模式。真正的问题在于人类如何使用这些输出——这超出了工程团队的控制范围。
下一步
2026年夏天的GPT-3级性能目标是硬指标。团队需要解决的核心问题是:在数据质量受限的前提下,规模定律(scaling laws)是否仍然成立?如果130亿参数不够,300亿、700亿能否突破瓶颈?
更长期的愿景是构建一个「时间模型矩阵」:1900年版、1950年版、2000年版并行运行,对比同一问题在不同时代知识框架下的回答差异。这将为「知识社会学」提供前所未有的计算工具。
回到最初的问题:一个活在1930年的AI怎么看2026年?
它看到的是蒸汽、钢铁和铁路,是和平的疲惫与战争的隐忧,是一个尚未被原子弹、电视和数字技术重塑的世界。这个愿景当然是错的——但错得如此系统、如此一致,反而成为了一面镜子,照见我们对「进步」的假设从何而来,又可能向何处去。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.