网易首页 > 网易号 > 正文 申请入驻

不好!1930年的AI都来抢程序员饭碗了

0
分享至

Jay 发自 凹非寺
量子位 | 公众号 QbitAI

劳动节,马上100岁的vintage大模型也得劳动。

是的,有人给只有1930年知识的大模型,微调成软件工程师了……

过程比想象中轻松,仅用250个训练样本,强悍的老头便解决了自己人生中的第一个编程问题——

给xarray库打了个补丁。



一个连电视机都没见过的AI,现在也开始跟Claude们「学坏」,要跟程序员抢饭碗了。(bushi)

中古硅基软件工程师

先补充下背景,1930是谁?

这是最近爆火的「老头AI」,全名叫talkie-1930-13b

操盘手是AI研究员Nick Levine、多伦多大学副教授David Duvenaud,以及大家熟悉的那位——真·GPT系列之父Alec Radford



而他们对老头最有趣的设计,就是其训练数据有条铁律:1931年1月1日之后的任何一个字,全部不准进!

是的,它不知道电视机,不知道互联网,更不知道二战怎么收场……

老头的世界,永远停在了1930年12月31日的午夜。

但让全网「瘫软」的点在于,就这么个老古董,当扔给它一道Python编程题时,这个跨越近百年的「过去之灵」,竟然写出了人生第一行Python代码。

离离原上谱。



如今,老头再次发力。

有人对Alec Radford的这个1930 vintage LLM做了微调,让它去解SWE-bench上的真实软件工程问题。

谁曾想,真让老头干成了。

250个训练样本之后,它落地了第一个fix——一个针对xarray库的小补丁。

百岁老人,硬核上岗。

对了,团队放出了老头在落地这个xarray库补丁的全过程。

说实话,如果以看前沿LLM的标准,这个demo看着真有点恼火。

一个简单的问题,老头足足花了49轮才搞定,又长又慢。

其中有些轮次实在看不下去了,真的太笨了,着急死了,但你又不好意思对老头发脾气。

但,这在某些时刻,反而让人更兴奋。跟看爽文一样。

我举个最「直接、不绕弯」的例子。(bushi)

老头一开始其实搞砸了。

第12轮对话的时候,它尝试apply patch失败了。



代码可以报错,但,老兵不死。

老头没有放弃,它仍在继续尝试,直到终于意识到自己错在哪……

然后,在第44轮,它给修好了!!



我知道,fix本身很简单,别说AI SOTA了,代码水平跟小白比估计都够呛。

但真正重要的,是老头在整个解题过程中的思考

这个过程展示出的那种推理能力,跟我们在现代模型上看到的如出一辙。

一个1930年的模型,也会试错,会反思,会自我修正

demo之外,benchmark的表现同样亮眼。

当微调时的训练数据规模扩展到大约75K条trajectory,也就是10亿token的时候,模型在SWE-bench-Verified上达到了4.5%的pass@1。

要知道,它原来在HumanEval上才4%的pass@100。这进步幅度相当可观。

虽然绝对值还很低,但对一个1930年知识模型来说,已经很离谱了。



更有意思的是另一个对照实验。

事实上,团队还同时给老头训练了一个兄弟模型,叫talkie-web,这个模型是在互联网数据上预训练的。

同样的微调配方,talkie-web在SWE-bench-Verified上的成绩是5.5%的。

没错,即便团队偏心,给孪生兄弟加上互联网数据,也就比老头高了1个百分点



以上结果,欢迎复现。

这不是什么穿越爽文,团队已经在GitHub上开源了项目,链接放在文章结尾,感兴趣的朋友可以去跑跑看。

团队自己也很兴奋,在README里喊话:

如果你手头有更多算力,我们很想看到1930模型和互联网模型在后训练持续扩展时的完整scaling曲线对比。

想看想看,这可比单纯秀肌肉的benchmark有意思多了。

什么是智能?

团队并没有剖析背后的原因,但我看了不少网友在帖子下面的评论,觉得这是一个值得讨论的话题。

我们一直以为,AI需要吃掉整个互联网才能变聪明。

但如果一个只读过1930年以前书的模型,经过一点点后训练就能写代码修bug……

那我们对「什么是智能」的理解,是不是也得重新想想?

4.5%的pass@1,放在今天的SOTA面前当然不够看。但它证明的那件事,比任何benchmark分数都重要。

一个1930年代的人,如果拥有几乎相同的教育体系,完全可以理解现代软件工程。

一百年前的数据量,加上正确的后训练方法,就足以产生现代意义上的推理。

智能的瓶颈,或许从来不在于预训练数据的多少。

你不需要一个训练过所有知识的模型,它只需要具备基本的语言理解能力,这就够了。

或许,当我们在Scaling路上一路狂奔的间隙,也可以稍微停一停,抬起头来跟身边人侃侃大山、扯扯淡——

诶,你说……
智能的本质,到底是什么?

GitHub:
https://github.com/RicardoDominguez/talkie-coder

参考链接:
[1]
https://x.com/rdolmedo_/status/2050665193374732430?s=20
[2]
https://github.com/RicardoDominguez/talkie-coder

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我爱上41岁女人,她开口:玩玩可以但不结婚,得知真相我瘫坐在地

我爱上41岁女人,她开口:玩玩可以但不结婚,得知真相我瘫坐在地

小月故事
2026-03-19 17:08:37
用嘴喂游客棒棒糖、借位亲吻引争议,江西葛仙村NPC小黄鱼互动已改送簪花

用嘴喂游客棒棒糖、借位亲吻引争议,江西葛仙村NPC小黄鱼互动已改送簪花

极目新闻
2026-05-03 14:52:34
瞒不下去了,真的需要彻查了!

瞒不下去了,真的需要彻查了!

胖胖说他不胖
2026-04-25 14:12:40
毛岸英牺牲后,江青汇报牺牲经过,毛泽东:这个不要着急告诉思齐

毛岸英牺牲后,江青汇报牺牲经过,毛泽东:这个不要着急告诉思齐

历史龙元阁
2026-05-03 15:10:10
上海有钱人家女佣条件曝光:月薪2万,藏着太多羞于说出口的秘密

上海有钱人家女佣条件曝光:月薪2万,藏着太多羞于说出口的秘密

奇思妙想生活家
2026-04-30 12:51:28
北京雨后出现乳状云!大风蓝色预警中,局地8级以上大风,多家公园游船暂停运营

北京雨后出现乳状云!大风蓝色预警中,局地8级以上大风,多家公园游船暂停运营

环球网资讯
2026-05-03 15:42:46
王越:原暨南大学副校长,原广东省政协副主席

王越:原暨南大学副校长,原广东省政协副主席

马蹄烫嘴说美食
2026-05-03 16:01:00
知名港星自曝炒股亏掉3000万,大曝女星饭局内幕,支票金额随便填

知名港星自曝炒股亏掉3000万,大曝女星饭局内幕,支票金额随便填

叨唠
2026-05-02 23:40:10
大疆创始人汪滔消失十年,如今露面爆内情,大疆年赚800亿太亮眼

大疆创始人汪滔消失十年,如今露面爆内情,大疆年赚800亿太亮眼

梦录的西方史话
2026-04-24 14:27:18
释永信“开光”真相大白,过程不堪入目,易中天也被牵连

释永信“开光”真相大白,过程不堪入目,易中天也被牵连

往史过眼云烟
2026-03-24 17:05:24
“最美港姐”上浪姐一夜爆火!网友:完全是真人版迪士尼在逃公主

“最美港姐”上浪姐一夜爆火!网友:完全是真人版迪士尼在逃公主

泠泠说史
2026-05-03 20:07:54
赛后谢场环节,浙江死忠球迷区打出横幅:拒绝外行指导内行

赛后谢场环节,浙江死忠球迷区打出横幅:拒绝外行指导内行

懂球帝
2026-05-02 22:44:16
我中奖六千万瞒着丈夫谎称被开除,他说养我后取消全家旅游

我中奖六千万瞒着丈夫谎称被开除,他说养我后取消全家旅游

晓艾故事汇
2026-05-02 09:27:32
万斯的言论激怒泽连斯基,乌总统:你不帮乌克兰,就是在帮俄罗斯

万斯的言论激怒泽连斯基,乌总统:你不帮乌克兰,就是在帮俄罗斯

青仔的世界
2026-05-03 10:20:56
拒赔中国361亿的马来西亚,撕毁中马合同转向日本,现在怎样了?

拒赔中国361亿的马来西亚,撕毁中马合同转向日本,现在怎样了?

老谢谈史
2026-05-02 22:22:54
特朗普与教宗良十四世口水战后,鲁比奥将访问罗马和梵蒂冈

特朗普与教宗良十四世口水战后,鲁比奥将访问罗马和梵蒂冈

嘴角上翘
2026-05-03 19:23:46
43岁男子和富婆车震后,富婆还想要更多,2016年他将51岁富婆杀死

43岁男子和富婆车震后,富婆还想要更多,2016年他将51岁富婆杀死

汉史趣闻
2026-04-06 19:17:12
穆里尼奥这回真怒了!2-0到2-2,裁判15分钟补时把人看傻了

穆里尼奥这回真怒了!2-0到2-2,裁判15分钟补时把人看傻了

罗纳尔说个球
2026-05-03 12:14:53
中国十大佛教名山

中国十大佛教名山

电工知库
2026-05-03 06:33:34
伊朗亮出可怕底牌!海上封锁激怒对手,特朗普的算盘彻底打错了?

伊朗亮出可怕底牌!海上封锁激怒对手,特朗普的算盘彻底打错了?

羽逸地之光
2026-05-03 19:59:22
2026-05-03 20:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12572文章数 176460关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

美国空军C-17运输机降落北京 中美开启一连串密集互动

头条要闻

美国空军C-17运输机降落北京 中美开启一连串密集互动

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

蔡卓妍婚后首现身 戴结婚戒指笑容不断

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

艺术
家居
房产
数码
公开课

艺术要闻

Spencer Laron Wilson:当代美国风景画家

家居要闻

灵动实用 生活艺术场

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

数码要闻

华为5A最新支持设备清单公布,含Pura X Max、畅享90系列等

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版