网易首页 > 网易号 > 正文 申请入驻

一个活在1930年的AI怎么看2026年?

0
分享至

如果有个AI从未听说过二战、计算机或互联网,它眼中的未来会是什么样?

一群研究者真的造出了这样的模型。它叫「talkie」,130亿参数,知识库截止到1930年底。问它2026年的世界,它说蒸汽船十天能从伦敦开到纽约,欧洲铁路上跑满火车,人们冬天住巴黎、夏天住伦敦。


谁在做这件事

项目核心 trio:Alec Radford、Nick Levine、David Duvenaud。

Alec Radford 这个名字在AI圈足够响亮——他是GPT系列的关键开发者之一,OpenAI早期核心成员。这次他却带队做了一件看似「倒退」的事:用100年前的数据训练一个全新模型。

Nick Levine 和 David Duvenaud 来自多伦多大学。Duvenaud 是机器学习教授,研究方向包括生成模型和可微分编程。三人组合意味着这不是玩票项目,而是有学术野心的严肃实验。

他们的目标很明确:到2026年夏天,把这个模型扩展到GPT-3级别的性能。

数据从哪来

2600亿个词元(token),全部来自1930年12月31日前出版的内容。

来源清单很「复古」:书籍、报纸、科学期刊、专利文件、判例法。没有Reddit对话,没有维基百科,没有代码仓库。团队选择1930年底作为 cutoff,是因为这是美国版权法规定的公有领域分界线——在此之前出版的作品无需授权即可使用。

代价是沉重的。所有文本必须从实体资料转录,OCR质量参差不齐,排版错误、缺页、污渍都是常态。团队花了大量精力清洗数据,但某些「噪声」反而成了特征:维多利亚时代的礼仪指南、蒸汽机专利图纸、战前报纸的社论腔调,都被模型完整吸收。

它到底「信」什么

直接看输出最直观。

问2026年的世界:「欧洲人口将达十亿,铁路网纵横大陆,蒸汽船十天往返伦敦与纽约,人们冬居巴黎、夏住伦敦。」

问会不会有二战:「1914-1918年的疯狂已成过去,各国已厌倦战争,转向和平事业。」

但这个模型不是盲目乐观。它警告「欧洲四处是阴燃的敌意和易燃物」,点名中日、意南斯拉夫之间的潜在冲突。「火星随时可能落下,引发大火。」最终结论很谨慎:世界和平取决于「诸多因素,无一可忽视」。

这种语气——先安抚再警示,引用具体地名,用比喻收尾——完全是战前报纸社论的风格。模型不是在「扮演」1930年代,它的训练数据就是1930年代。

量化它的「惊讶」

开发者设计了一套测试:把《纽约时报》「历史上的今天」栏目近5000条历史事件描述输入模型,测量它对每条事件的「惊讶程度」。

结果呈现清晰的时序模式。1930年 cutoff 之后,惊讶值陡然攀升,在1950-1960年代达到峰值,随后趋于平稳。这意味着:模型对二战、原子弹、冷战、太空竞赛完全没准备,但对更晚近的事件(比如互联网诞生)反而没那么震惊——因为它已经学会了「未来充满意外」这个元认知。

这个曲线本身就是个发现。它证明了语言模型确实在训练数据中内化了某种「时间感」,而不仅仅是模式匹配。

为什么要做这个

表面看是学术趣味,但动机更深。

现代大模型的训练数据混杂了事实、观点、预测、反讽、事后诸葛亮。2024年的网页上,有人写「2020年疫情爆发」,也有人写「2020年我以为疫情很快结束」。模型被迫同时学习「发生了什么」和「人们当时以为会发生什么」,这造成了认知层面的纠缠。

这个「时光胶囊」模型提供了一个「干净的对照组」。它的训练数据里没有任何「事后视角」,所有关于未来的讨论都是真正的预测,而非回顾。研究者可以借此分离两种能力:基于已知事实的推理,和对不确定未来的推断。

另一个维度是「价值观考古」。1930年前的文本承载着不同的伦理框架:殖民话语的理所当然、性别角色的刻板预设、对技术进步的无条件乐观。这个模型不是中立的工具,它是那个时代的「活标本」。对比它与现代模型的输出,能清晰追踪哪些观念被保留、哪些被修正、哪些只是被隐藏。

技术层面的挑战

130亿参数放在2024年不算大,但考虑到数据质量,训练难度远超同等规模的现代模型。

转录错误是首要敌人。古旧印刷体的OCR错误率可能高达两位数,「the」被认成「die」,数字「1」和字母「l」混为一谈。团队开发了专门的清洗流程,但某些错误无法根除——比如19世纪的「long s」(ſ)常被误识别为「f」,导致「satisfaction」变成「fatiffaction」。这些噪声被模型当作真实语言的一部分学进去了。

词汇漂移同样棘手。1930年的「computer」指的不是机器,而是「从事计算工作的人」;「gay」意味着快乐,与性取向无关。模型必须从零学习这些语义,没有现代用法作为参照锚点。

更隐蔽的问题是「知识密度」。现代预训练数据包含大量结构化信息:维基百科的条目格式、代码的语法规则、学术论文的IMRAD结构。1930年前的文本没有这些模板,信息散落在叙事性散文中,提取效率极低。

能用来干什么

最直接的用途是历史研究。历史学家可以提问:「如果1930年的知识界看到这份经济数据,会怎么解读?」模型输出的不是正确答案,而是「当时可能的解读方式」——这正是史料批判需要的视角。

创意写作是另一个场景。想要写一部设定在1920年代的侦探小说,却担心对话太现代?可以用这个模型生成对白草稿,再人工调整。它的「时代腔调」比任何风格指南都更地道。

更激进的设想是「反事实模拟」。如果1930年的科学界提前十年发现核裂变,技术路线会如何分歧?这类问题没有标准答案,但模型的推理链条——基于当时的物理认知、工业能力和学术网络——能提供有价值的思想实验素材。

争议与边界

项目并非没有批评者。

有人质疑:用1930年的文本训练模型,是否等于「复活」了那个时代的偏见?模型输出中的种族等级观念、性别歧视表述、殖民主义正当化论述,需要明确标注为「历史再现」而非「当代观点」。团队已经在输出中加入时间戳提示,但过滤策略仍在讨论中。

另一个争议是「知识截止」的伦理含义。如果未来出现类似项目,用2024年的数据训练模型,而2024年恰好是某个重大历史事件的前夜,这个「无知」的AI是否会被用于不当目的?

团队对此的回应是技术性的:模型的「无知」是设计特征,不是安全漏洞。它无法预测未来,只能复现过去的思维模式。真正的问题在于人类如何使用这些输出——这超出了工程团队的控制范围。

下一步

2026年夏天的GPT-3级性能目标是硬指标。团队需要解决的核心问题是:在数据质量受限的前提下,规模定律(scaling laws)是否仍然成立?如果130亿参数不够,300亿、700亿能否突破瓶颈?

更长期的愿景是构建一个「时间模型矩阵」:1900年版、1950年版、2000年版并行运行,对比同一问题在不同时代知识框架下的回答差异。这将为「知识社会学」提供前所未有的计算工具。

回到最初的问题:一个活在1930年的AI怎么看2026年?

它看到的是蒸汽、钢铁和铁路,是和平的疲惫与战争的隐忧,是一个尚未被原子弹、电视和数字技术重塑的世界。这个愿景当然是错的——但错得如此系统、如此一致,反而成为了一面镜子,照见我们对「进步」的假设从何而来,又可能向何处去。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北京正式官宣,全国60岁以上老人,逛这些公园全都免费!不限户籍

北京正式官宣,全国60岁以上老人,逛这些公园全都免费!不限户籍

花小猫的美食日常
2026-04-29 15:45:08
清朝灭亡不过一百余年,上千万的满族人,为什么满语迅速消亡了?

清朝灭亡不过一百余年,上千万的满族人,为什么满语迅速消亡了?

铭记历史呀
2026-04-29 00:04:12
人口警报持续亮起,3大现实难题,戳中年轻人不愿生育真相

人口警报持续亮起,3大现实难题,戳中年轻人不愿生育真相

刘哥谈体育
2026-04-29 15:05:13
“骨盆前倾成这样,还不去医院?”家长晒一年级女儿体态,被群嘲

“骨盆前倾成这样,还不去医院?”家长晒一年级女儿体态,被群嘲

妍妍教育日记
2026-04-24 11:15:25
微信iOS版8.0.72上线,782MB包里藏了什么?

微信iOS版8.0.72上线,782MB包里藏了什么?

硬核玩家2哈
2026-04-29 20:15:36
中国导弹库存能撑多久?俄专家断言:半小时定胜负,背后底气何在

中国导弹库存能撑多久?俄专家断言:半小时定胜负,背后底气何在

探秘未知
2026-04-28 15:39:02
广东一园区老板跑路,将售出厂房再抵押贷款6亿,50余家企业中招

广东一园区老板跑路,将售出厂房再抵押贷款6亿,50余家企业中招

报人老张
2026-04-28 19:37:32
逆转!恩比德33+8,塔图姆24+16,乔治立大功,不愧是顶薪球员

逆转!恩比德33+8,塔图姆24+16,乔治立大功,不愧是顶薪球员

篮球大视野
2026-04-29 09:55:32
湖南岳阳通报“一中学生在校期间饮水杯被同学投放异物”

湖南岳阳通报“一中学生在校期间饮水杯被同学投放异物”

界面新闻
2026-04-28 11:36:30
臧美孚去世

臧美孚去世

南方都市报
2026-04-29 15:13:17
穆帅断层领跑皇马新帅赔率 沉默回应记者提问 本菲卡准备砸钱留人

穆帅断层领跑皇马新帅赔率 沉默回应记者提问 本菲卡准备砸钱留人

风过乡
2026-04-29 12:16:48
中国肺癌发病率世界第一!提醒:罪魁祸首已揪出,7种食物要少吃

中国肺癌发病率世界第一!提醒:罪魁祸首已揪出,7种食物要少吃

健康之光
2026-03-23 20:10:05
人类肉嫩毛少,容易追击捕食,可为啥大部分食肉野兽都不咋吃人?

人类肉嫩毛少,容易追击捕食,可为啥大部分食肉野兽都不咋吃人?

向航说
2026-04-28 00:25:03
1981年,陈伯达被判刑18年,出狱后提出唯一要求,组织:尽管提

1981年,陈伯达被判刑18年,出狱后提出唯一要求,组织:尽管提

瑾瑜聊情感
2025-07-04 18:06:06
以色列已经告诉世界:日本若敢拥核,美国并不会第一个“翻脸”

以色列已经告诉世界:日本若敢拥核,美国并不会第一个“翻脸”

混沌录
2026-04-29 20:07:09
奥黛丽赫本人生最后30年:在瑞士小镇一座带花园的漂亮房子里度过

奥黛丽赫本人生最后30年:在瑞士小镇一座带花园的漂亮房子里度过

毒舌小红帽
2026-04-17 18:24:06
李在明没下狠手,听到判决结果,尹锡悦老婆金建希面如土色

李在明没下狠手,听到判决结果,尹锡悦老婆金建希面如土色

石江月
2026-04-29 17:09:36
惯子如杀子!孩子这4种表现说明已经被惯坏了,再不改就来不及了

惯子如杀子!孩子这4种表现说明已经被惯坏了,再不改就来不及了

新东方家庭教育
2026-04-22 16:10:46
中央5台直播乒乓时间表:4月29日CCTV5+转播国乒!王楚钦莎莎备战

中央5台直播乒乓时间表:4月29日CCTV5+转播国乒!王楚钦莎莎备战

阿晞体育
2026-04-29 08:27:56
为钓杭州“富豪”,90后女孩扎破安全套,最后下场只能说罪有应得

为钓杭州“富豪”,90后女孩扎破安全套,最后下场只能说罪有应得

莫地方
2026-04-29 00:35:03
2026-04-29 20:59:00
我是一个养虾人
我是一个养虾人
有态度网友ytd
1894文章数 12关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

男子诈骗熟人350万 朋友圈发文"我跑路了 你们报案吧"

头条要闻

男子诈骗熟人350万 朋友圈发文"我跑路了 你们报案吧"

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

本地
教育
时尚
公开课
军事航空

本地新闻

用青花瓷的方式,打开西溪湿地

教育要闻

有趣的循环问题,你会吗?

除了“薄底鞋”,今年最流行这5双鞋,怎么搭都好看!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国参议院否决限制特朗普对古巴动武的决议

无障碍浏览 进入关怀版