网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

GPT之父把AI扔回1930年：没见过一行代码，却「发明」了Python！

2026-04-30 16:32:53　来源: 算法与数学之美

北京举报

0

分享至

你敢信？一个活在95年前的AI，竟写出了Python代码。GPT之父下场，用2600亿Token炼出了一个「老古董」AI。

一个从未见过电脑的AI，竟写出了现代编程语言！

这可不是什么科幻的设定。

就在今天，GPT之父Alec Radford带队发布了震撼全网的「talkie」——

总参数130亿，一个只读过1931年之前旧文献的大模型。

talkie的「世界观」（全部训练数据），被冻结在了1930年12月31日。

那个时代，没有互联网，没有维基百科，更没有任何现代代码。

它读过的最「新」的东西，是近百年前的专利书、科学期刊、礼仪手册和私人书信。

但就是这样一个「活在95年前」的AI，居然能写出Python代码。

没学过编程，

却写出了Python，理解了「逆函数」

talkie最炸裂的发现，藏在一组编程测试里。

Alec Radford团队突发奇想，用HumanEval去测试talkie的编程能力——

给它几个Python函数作为上下文示例，然后让它解决新的编程问题。

要知道，talkie的训练数据中，没有任何一行现代代码。连数字计算机的概念，都不存在于它的「知识体系」中。

但结果令人震惊，通过少样本学习，它竟然能写出正确的Python程序。

虽然目前只能完成简单的单行程序，比如两个数相加，或者对上下文示例做微小修改。

Alec Radford：GPT、CLIP、Whisper背后核心大佬

但其中一个案例让人印象深刻：给定一个旋转密码的编码函数encode_shift，它的逻辑是把每个字母在字母表中向后移动5位。

talkie自己写出了对应的解码函数，整个修改只有一个字符：把+5改成了-5，加号换成了减号。

它真正理解了「逆函数」：加密是加，解密就是减」这个逆运算的概念。

传送门：https://talkie-lm.com/chat

2600亿Token，专喂百年前的纸

Alec Radford团队为什么要费这么大劲，手动OCR近百年前的物理文献，来训练一个「老古董」？

因为他们要回答AI领域最核心的一个问题：LLM的能力，到底是推理，还是背诵？

talkie可以写出Python，证明了——

LLM可以用19世纪的知识做推理，并非只是检索。不得不说，这才是真正意义上的「泛化」！

再来看talkie的训练语料库，可以称得上是一个庞大的「考古工程」。

它的训练语料达到了2600亿token，全部来自1931年之前的英语文本，包括书籍、报纸、期刊、科学论文、美国专利、判例法。

要知道，这么多文本皆需要从实体文档扫描并OCR转录。

而选择1930年作为截止日期，原因很实际：这是美国公共版权法（public domain）的分界线。

不过，这带来了一个意想不到的瓶颈：数据质量。

团队做了一组对照实验：用传统OCR系统转录的旧文本训练模型，和用人工转录的同一批文本训练模型相比，前者的学习效率只有后者的30%。

简单的正则清洗能把这个数字提升到70%，但仍然有巨大的差距。

在评估talkie性能实验中，团队又打造了一个「现代孪生体」（talkie-web-13b-base）。

后者用FineWeb的现代网络数据训练，两款模型用了「相同的算力」。

显而易见，在核心语言理解、数学推理任务上，talkie的表现与现代孪生体相当。

但在通用知识评测上，即使剔除了对1930年视角来说「穿越」的题目，talkie仍然落后。

团队怀疑，这跟数据质量有很大关系。

为此，Radford团队计划从零开始训练「复古OCR系统」，专门用于重新转录1931年前的文本。

用最现代的Claude 4.6

训练最古老的AI

talkie的「后训练」方案也很有意思。

要把一个只读过旧书的「基础模型」变成能对话的聊天机器人，根本没有现成的指令微调的数据可用。

团队的做法是，从1930年之前的结构化参考书中提取指令-回答对：礼仪手册、书信写作指南、菜谱、百科全书、诗歌集。

然后，再用这些「复古教材」做第一轮SFT。

在接下来的RLAIF阶段，团队用在线DPO来提升talkie的指令遵循能力，Claude Sonnet 4.6作为裁判。

一个2026年最先进的AI，给一个「活在」1930年的AI打分。

最终的精调阶段，团队甚至用Claude Opus 4.6生成多轮对话数据，来打磨talkie的对话能力。

训练过程中，Claude对talkie指令遵循能力的评分从2.0提升到了3.4（满分5分）。

最后一步，用Claude Opus 4.6与talkie进行多轮合成对话，再做一轮拒绝采样+SFT，打磨对话能力。

团队也坦承了一个讽刺之处：用现代大模型训练一个本该冻结在1930年的模型，本身就是一种「时间污染」。

他们的长期目标是用复古基座模型自身作为裁判，实现完全「自举式」的后训练流水线。

值得一提的是，talkie的7B版本在RL训练后出现了一个搞笑的副作用——

它开始用列表体说话，纯属是被现代AI的「坏习惯」传染了。

AI界最干净的一次「开卷考试」

研究团队还做了另一个有趣的实验。

他们从《纽约时报》的「历史上的今天」栏目中提取了近5000条历史事件描述，计算talkie对每条事件的「惊讶度」。

结果非常清晰，1930年之前的事件，talkie不太惊讶。1930年之后的事件，惊讶度开始攀升。

到了1950年代和1960年代达到峰值，然后趋于平稳。

这条曲线本身就是一个关于预测能力的实验。随着模型规模增大，这条曲线会怎么变化？

谷歌DeepMind CEO Demis Hassabis曾提出一个思想实验——

一个只训练到1911年的模型，能不能像爱因斯坦在1915年那样独立发现广义相对论？

talkie目前当然做不到。但它提供了一条路径，往上Scale就行了。

今夏扩展到GPT-3级别

talkie目前是130亿参数，团队的路线图相当激进——

今年夏天，发布GPT-3级别的复古模型。

更远期的目标：将语料扩展到超过一万亿token，理论上足够训练一个GPT-3.5级别的模型，能力接近初代ChatGPT。

一个冻结在1930年的ChatGPT。

参考资料：

https://x.com/status_effects/status/2048878495539843211?s=20

https://talkie-lm.com/introducing-talkie

文章来源：新智元。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

浙江男子花860万买了套排屋，收房时傻眼，院子里有一个“凸起”，业主：跟老家的厕所一样，开放商：不利因素已公示

极目新闻 2026-04-30 10:33:16
7365 跟贴 7365
国防部回应外界推测中国对日将有大动作

北京青年报 2026-04-30 16:41:25
4901 跟贴 4901

阳台外贴满“吵”！深圳一小区居民抓狂：凌晨睡不了，孩子被迫回老家

南方都市报 2026-04-30 15:18:54
385 跟贴 385

上海迪士尼回应游客劝阻吸烟被打：园区没有禁烟；被打男子发声：对方已赔钱和解

中国新闻周刊 2026-04-27 14:25:00
15170 跟贴 15170
男子在山里航拍，发现多人为摘洋槐花砍槐树，几十棵粗树被锯断

星视频 2026-04-30 13:26:30
107 跟贴 107

物业费收不齐，亏损止不住：一年超200个物业撤场，困局何解？

新京报 2026-04-30 09:46:07
665 跟贴 665

62岁天津大爷，“chua一下”就火了

中国新闻周刊 2026-04-30 11:20:55
820 跟贴 820
中国船员滞留霍尔木兹60天：奖发到位大部分愿继续干

潇湘晨报 2026-04-30 16:26:46
11978 跟贴 11978

“福特”号航母将于近日撤离中东返回美国，“梅森”号导弹驱逐舰加入“布什”号航母打击群执行任务

鲁中晨报 2026-04-30 07:11:04
284 跟贴 284
卫冕冠军赵心童10比13不敌墨菲止步八强，“克鲁斯堡魔咒”仍在延续，吴宜泽闯进四强，成为中国军团独苗

鲁中晨报 2026-04-30 09:07:20
728 跟贴 728
洛阳白马寺发布郑重声明：不少游客因通过非官方第三方渠道购买非法倒卖的预约门票，导致无法正常入寺，切勿轻信

极目新闻 2026-04-29 18:10:47
903 跟贴 903
海关总署：即日起允许符合要求的西班牙开心果和无花果干进口

证券时报 2026-04-30 14:40:08
357 跟贴 357
WSBK匈牙利站排位赛5月1日打响张雪机车告别优待资格再战国际赛场

封面新闻 2026-04-30 21:56:05
68 跟贴 68
上海将建世界最高无轴摩天轮“上海之门”，预计今年年底开工

澎湃新闻 2026-04-29 22:34:28
521 跟贴 521
福大毕业生称211高校学生盗用其毕业作品参赛获奖！合肥工业大学：正在核实

大风新闻 2026-04-30 15:48:06
255 跟贴 255
2025年农民工月均收入5075元，比上年增加114元

新京报 2026-04-30 15:06:03
2845 跟贴 2845
瑞士欲设"1000万人口上限" 超半数民众支持

极目新闻 2026-04-30 12:41:35
586 跟贴 586
文旅部集中整治景区摆渡车，点名龙虎山、长白山、稻城亚丁等

南方都市报 2026-04-27 16:21:12
2149 跟贴 2149
哈啰“臻有钱”平台被指利率踩红线、隐形收费多

红星新闻 2026-04-30 14:27:43
160 跟贴 160
堵！堵！堵！苏B大军出动了！

江南晚报 2026-04-30 18:58:38
0 跟贴 0
云南元阳发生一起交通事故，致7死12伤

封面新闻 2026-05-01 06:08:14
0 跟贴 0
天津最委屈司机：8元订单被骂一路，2年坚持发800多条视频控诉，走红后“沉冤得雪”，视频清空了

天津人 2026-05-01 06:34:44
0 跟贴 0

0-1！2-1！疯狂一夜，维拉爆冷落败，布拉加补时绝杀，水晶宫获胜

0-1！2-1！疯狂一夜，维拉爆冷落败，布拉加补时绝杀，水晶宫获胜

足球狗说

2026-05-01 05:14:38

央视强硬拒绝18亿世界杯转播费，获球迷力挺

央视强硬拒绝18亿世界杯转播费，获球迷力挺

格斗社

2026-05-01 04:33:42

英国国王查尔斯给特朗普送了钟，还“贴脸开大”！

英国国王查尔斯给特朗普送了钟，还“贴脸开大”！

新民周刊

2026-04-30 18:45:52

北京协和医学院博士：千万不要把烦死了、累死了、气死了挂在嘴上

北京协和医学院博士：千万不要把烦死了、累死了、气死了挂在嘴上

洞见

2026-04-30 09:25:41

爆冷！0-1！点球改变战局，埃梅里不敢相信，欧战晋级前景恶化

爆冷！0-1！点球改变战局，埃梅里不敢相信，欧战晋级前景恶化

足球狗说

2026-05-01 04:52:37

美国披露数据：中国战略石油储备量全球第一

美国披露数据：中国战略石油储备量全球第一

极目新闻

2026-04-30 21:40:56

别再心疼黄圣依了！杨子和新欢产子，配合演戏的她根本不是傻白甜

别再心疼黄圣依了！杨子和新欢产子，配合演戏的她根本不是傻白甜

阿纂看事

2026-04-30 11:07:23

一手好牌打个稀烂，直到张军被调查，才明白，林丹的选择有多清醒

一手好牌打个稀烂，直到张军被调查，才明白，林丹的选择有多清醒

林子说事

2026-04-30 18:33:16

连爆十几条热搜！孙杨这次，被他妈害惨了……

连爆十几条热搜！孙杨这次，被他妈害惨了……

桌子的生活观

2026-04-30 12:19:46

基因铁证撕碎韩国纯血神话！他们真正的老祖宗曝光，竟是一路杀光半岛土著的东南亚狠人

基因铁证撕碎韩国纯血神话！他们真正的老祖宗曝光，竟是一路杀光半岛土著的东南亚狠人

寄史言志

2026-04-30 18:39:55

珠海风云，千亿国资帝国亏空迷局

珠海风云，千亿国资帝国亏空迷局

栗滴财经

2026-04-30 18:22:14

从“四环闪耀”到“油电双赢”，百年奥迪的进化从未设限

从“四环闪耀”到“油电双赢”，百年奥迪的进化从未设限

大众侃车

2026-04-28 20:01:07

55岁陆宏达涉嫌刑案被羁押深圳，一周前辞任2家上市公司董事长

55岁陆宏达涉嫌刑案被羁押深圳，一周前辞任2家上市公司董事长

中国能源网

2026-04-30 08:14:20

北电96级再聚首，黄晓明一身肌肉，赵薇罕见现身，52岁祖峰好沧桑

北电96级再聚首，黄晓明一身肌肉，赵薇罕见现身，52岁祖峰好沧桑

冷紫葉

2026-04-30 15:43:10

北影30年后再聚首：陈坤老了，黄晓明精致了，意想不到的人也来了

北影30年后再聚首：陈坤老了，黄晓明精致了，意想不到的人也来了

往史过眼云烟

2026-04-30 19:28:05

陕西男子3次报警，民警拒不派警，致两家四口被杀，法院咋判的？

陕西男子3次报警，民警拒不派警，致两家四口被杀，法院咋判的？

就一点

2026-04-29 17:28:35

太阳队传闻：狄龙·布鲁克斯或将面临1.25亿美元的续约大礼

太阳队传闻：狄龙·布鲁克斯或将面临1.25亿美元的续约大礼

好火子

2026-05-01 04:38:09

境外势力误导年轻人，烟草电网等单位应该扩岗扩招，破解躺平风气

境外势力误导年轻人，烟草电网等单位应该扩岗扩招，破解躺平风气

今朝牛马

2026-04-30 22:07:20

福州大学一学生称自己5年前的研究生毕业动画作品被合肥工业大学三名学生盗用，且获国奖；合肥工业大学：已了解相关情况，正在核实

福州大学一学生称自己5年前的研究生毕业动画作品被合肥工业大学三名学生盗用，且获国奖；合肥工业大学：已了解相关情况，正在核实

三湘都市报

2026-04-30 16:03:54

世锦赛战报：墨菲4-4！竞逐决赛，6-2，吴宜泽四连鞭碾压12冠王

世锦赛战报：墨菲4-4！竞逐决赛，6-2，吴宜泽四连鞭碾压12冠王

求球不落谛

2026-05-01 04:58:37

算法与数学之美

分享知识，交流思想

5505文章数 64624关注度

往期回顾全部

科技要闻

9000亿美元估值，Anthropic即将反超OpenAI

头条要闻

英国国王给特朗普送了口钟还贴脸开大"有需要尽管敲"

头条要闻

英国国王给特朗普送了口钟还贴脸开大"有需要尽管敲"

体育要闻

季后赛场均5.4分，他凭啥在骑士打首发？

娱乐要闻

孙杨博士学历有问题？官方含糊其辞

财经要闻

易会满被“双开”！

汽车要闻

专访捷途汪如生：捷途双线作战全球化全面落地

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手机

艺术

旅游

本地

家居

手机要闻

华硕创X 2026骁龙X2 Elite二合一创作本上架，12999元

艺术要闻

石景，无可比拟！

旅游要闻

人文|古城梧州看骑楼

本地新闻

用青花瓷的方式，打开西溪湿地

家居要闻

灵动实用生活艺术场

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版