网易首页 > 网易号 > 正文 申请入驻

Claude跑600次实验:3种语言快2.6倍,静态类型集体翻车

0
分享至


600次API调用,15门编程语言,Anthropic工程师花了两周让Claude Code重写Git。结果出来那天,静态类型的拥趸可能要重新算账——Ruby、Python、JavaScript包揽前三,速度是Rust、Java的1.4到2.6倍,成本还低40%。

这场实验的起因很直接:AI编程时代,选什么语言最省token、最不容易翻车?社区吵了两年,"类型安全派"和"动态灵活派"互相甩论文,但没人拿真实数据说话。Anthropic的工程师Sidney Keith决定自己跑一遍。

实验设计:让AI两周内"学会"Git

任务原型是Linus Torvalds两周写出来的Git。Keith把它拆成两个阶段:v1从零开始读SPEC实现基础功能,v2在此基础上追加需求。每门语言跑20次,模型统一用Claude Opus 4.6(高努力模式),总共600次运行。

语言名单覆盖了主流阵营:动态类型的Ruby、Python、JavaScript、Perl、Lua;静态类型的Rust、Go、Java、C、OCaml、Haskell;还有混合对照组——Python/mypy和Ruby/Steep,用来隔离"同一语言加类型检查"的纯开销。

评判指标很实在:总耗时、API成本、代码行数、往返轮次(Turns)。失败率也记录在案——600次里只挂了3次,Rust占2次,Haskell占1次。其中一次Rust失败时,Claude直接甩锅说"测试用例错了",但其他19次都过了,判定为幻觉。

动态语言包揽前三:Ruby 73秒,Python 78秒,JavaScript 81秒。成本在0.36到0.39美元之间,标准差极低——又快又稳。

从第4名Go开始,画风突变。Go平均102秒,但标准差±37秒,波动比前三名的总和还大。Rust、Java、C依次排开,时间冲上110到130秒区间。最慢的是Haskell,v2阶段平均99.6秒,尽管它的代码行数只有224行,全场最精简。

时间和成本几乎完全挂钩。Ruby完成双版本任务花0.36美元,Haskell要0.79美元,C更是冲到0.93美元。静态类型省下的调试时间,在AI编程场景里似乎换不来真金白银。


类型检查的隐形税:Ruby加Steep慢3.2倍

对照组的数据最扎心。纯Ruby v1阶段平均33.2秒,加上RBS类型签名和Steep检查后飙到105.0秒——正好3.2倍。Python/mypy相对温和,从32.9秒涨到52秒左右,但涨幅仍达58%。

Keith分析,v1从零开始时差距最大。Rust需要Cargo.toml,Java要pom.xml或build.gradle,这些配置文件的生成和维护都要消耗额外轮次。Python、Ruby、JavaScript只需要一个单文件就能跑,启动成本几乎为零。

v2阶段差距收窄,但排序没变。Ruby 40.0秒,Python 41.8秒,JavaScript 45.1秒, Perl、OCaml、Lua咬在45到47秒区间。静态类型的Java和Rust仍在60秒开外,C因为代码膨胀到517行,拖到90.8秒。

代码行数和效率的关系也被打破。OCaml(216行)、Ruby(219行)、Haskell(224行)最精简,但后两者在速度和成本榜上垫底。C的517行是全场最长,时间却只排倒数第三。LOC不再是预测AI编程效率的可靠指标。

往返轮次(Turns)揭示了另一个真相:动态语言平均比静态语言少3到5轮对话。每轮都是API调用,都是token消耗,都是等待时间。

为什么静态类型在AI手里不吃香?

传统认知里,类型系统能防bug、省调试。但Keith的实验指向另一个变量:AI编程的核心瓶颈不是"写出正确代码",而是"用最少交互达成目标"。

类型检查在这个场景里变成了额外负担。Claude需要生成类型签名,等待编译器反馈,再根据错误调整——这些轮次对人类开发者可能是"快速反馈",对按token计费的API调用就是纯成本。Ruby/Steep的3.2倍 slowdown,本质上是一遍写代码、一遍写类型、再一遍对类型的三重开销。


动态语言的"跑通再打磨"模式反而更适配AI的工作流。Python和Ruby允许Claude先生成能工作的实现,再逐步优化,中间没有编译器打断节奏。JavaScript的弱类型在此刻成了优势:少写类型注解=少消耗token=少花时间和钱。

失败率数据也耐人寻味。Rust的2次失败和Haskell的1次失败,恰好来自类型系统最严格的阵营。Claude在Rust里出现的"测试错了"幻觉,暗示强类型约束可能加剧模型的固执——当代码通不过编译器时,AI更倾向于质疑外部世界而非自己的实现。

OCaml的意外:精简代码换不来效率

OCaml在实验里是个异类。216行代码全场最短,v2时间47.1秒却能挤进第二梯队,成本0.52美元介于动态语言和静态语言之间。Keith没有深入解释,但数据暗示:ML家族的类型推断可能减少了显式类型注解的负担,部分抵消了静态类型的开销。

但这只是猜测。OCaml的样本量、社区工具链成熟度、Claude训练数据中的OCaml代码质量,都是未被控制的变量。唯一确定的是:它的表现打破了"静态类型=慢且贵"的简单等式,却没有动摇整体格局。

Perl和Lua的表现也值得玩味。Perl 45.7秒、Lua 47.2秒,双双超过Java和Rust。两门"过时"语言在AI编程场景里复活,靠的是极简的语法和零配置启动。Perl的一行式传统、Lua的单文件哲学,意外契合了"少即是多"的token经济学。

C语言的517行代码是个警示。Claude在C里写了大量手工内存管理和错误处理样板,这些对人类是"可控的底层细节",对AI是重复的token消耗。越接近硬件,AI的效率越低——至少在代码生成阶段如此。

实验的局限Keith自己也承认。单一任务(mini-git)、单一模型(Claude Opus 4.6)、20次样本量,都不能覆盖真实开发的复杂度。类型系统的长期维护价值、大型项目的重构安全、团队协作的可读性,这些人类视角的核心诉求被排除在指标之外。

但数据已经够尖锐了。当AI编程从尝鲜变成生产工具,语言选择的计算方式正在改写。不是"哪种语言最好",而是"哪种语言让AI最快 cheapest 地到达正确结果"。在这个等式里,动态语言暂时领先,类型系统的溢价还没找到买单的理由。

Keith在实验笔记里留了句话:「我原本期待静态类型能显著减少幻觉bug,但600次运行里类型相关的失败并没有明显差异。」类型安全的人类价值,在AI的统计样本里被稀释了。

如果Claude Code下个月更新版本,或者换成GPT-5、Gemini 2.5,这个排序会洗牌吗?更重要的是——当你的团队开始用AI写核心代码,你会为了那40%的成本差距,把新项目从TypeScript迁回JavaScript吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
跌麻了!笔记本开年销量暴跌40%近乎腰斩:没人买了

跌麻了!笔记本开年销量暴跌40%近乎腰斩:没人买了

中国能源网
2026-03-26 14:13:04
形势有多严峻?35岁失业男与年轻女人事激烈碰撞,评论区炸锅…

形势有多严峻?35岁失业男与年轻女人事激烈碰撞,评论区炸锅…

慧翔百科
2026-03-27 12:17:09
时代最令人失望者!加州州长怒批马斯克:亲手将美国电车王冠让给了中国

时代最令人失望者!加州州长怒批马斯克:亲手将美国电车王冠让给了中国

快科技
2026-03-27 14:18:12
4月1日医保新规落地,41-61岁抓紧办,3天内搞定,看病少花冤枉钱

4月1日医保新规落地,41-61岁抓紧办,3天内搞定,看病少花冤枉钱

老特有话说
2026-03-28 12:49:32
“新型出轨”正在朋友圈蔓延,比婚外情更隐蔽更伤人…

“新型出轨”正在朋友圈蔓延,比婚外情更隐蔽更伤人…

LULU生活家
2026-03-27 15:02:40
张凌赫事件持续升级!官方点名怒批,粉丝正面硬刚,这下恐要凉凉

张凌赫事件持续升级!官方点名怒批,粉丝正面硬刚,这下恐要凉凉

青橘罐头
2026-03-28 22:13:21
寻衅滋事情节严重、影响恶劣 四川泸县5名未成年人被依法拘留

寻衅滋事情节严重、影响恶劣 四川泸县5名未成年人被依法拘留

红星新闻
2026-03-28 09:48:14
《逐玉》张凌赫被嘲“粉底液将军”,央视都看不下去了,发文力挺

《逐玉》张凌赫被嘲“粉底液将军”,央视都看不下去了,发文力挺

娱乐故事
2026-03-26 17:11:11
大马丁:这是我们踢得最差的比赛之一;这是一记及时的警钟

大马丁:这是我们踢得最差的比赛之一;这是一记及时的警钟

懂球帝
2026-03-28 11:03:16
张雪峰去世仅两天!公司宣布重大决定:收回他所有肖像使用权

张雪峰去世仅两天!公司宣布重大决定:收回他所有肖像使用权

娱乐圈圈圆
2026-03-26 21:47:07
87岁华人神探李昌钰去世,好友曝死法及晚年再婚

87岁华人神探李昌钰去世,好友曝死法及晚年再婚

枫尘余往逝
2026-03-29 02:59:33
45名反中乱港分子在香港被判重刑,台湾反应强烈,外交部犀利回应

45名反中乱港分子在香港被判重刑,台湾反应强烈,外交部犀利回应

近史博览
2026-03-28 20:31:38
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
朝鲜导游对中国游客说,中国有几个方面不如朝鲜,他们说的对吗?

朝鲜导游对中国游客说,中国有几个方面不如朝鲜,他们说的对吗?

番外行
2026-03-29 00:15:03
0-4!孙兴慜哑火 韩国爆冷输非洲球队 国足VS喀麦隆比赛时间确定

0-4!孙兴慜哑火 韩国爆冷输非洲球队 国足VS喀麦隆比赛时间确定

侃球熊弟
2026-03-29 00:42:13
国家花几十年把北大荒变成粮仓,为啥突然又要退耕还荒?背后真相让人冒冷汗

国家花几十年把北大荒变成粮仓,为啥突然又要退耕还荒?背后真相让人冒冷汗

老杉说历史
2026-03-26 20:20:05
在医院你遭遇过最羞耻的事是什么?网友:一个比一个炸裂啊

在医院你遭遇过最羞耻的事是什么?网友:一个比一个炸裂啊

解读热点事件
2026-02-04 00:05:07
毛主席曾预言:这两个国家将来对中国最大威胁,如今果然应验

毛主席曾预言:这两个国家将来对中国最大威胁,如今果然应验

锅锅爱历史
2026-03-27 10:28:43
伊朗的“藩镇化”:去中心化生存,还是国家解体的前夜?

伊朗的“藩镇化”:去中心化生存,还是国家解体的前夜?

民间胡扯老哥
2026-03-27 07:01:25
16岁就是人间尤物,4年换19个男人,找老实人接盘后,变买菜妈妈

16岁就是人间尤物,4年换19个男人,找老实人接盘后,变买菜妈妈

一盅情怀
2026-03-28 15:38:13
2026-03-29 07:44:49
报错免疫体
报错免疫体
一名在需求评审和数据异常中反复横跳的产品运营。
363文章数 1关注度
往期回顾 全部

科技要闻

华为盘古大模型负责人王云鹤确认离职

头条要闻

上海爷叔在家"打伞做饭" 自嘲掏空三代400万买了个啥

头条要闻

上海爷叔在家"打伞做饭" 自嘲掏空三代400万买了个啥

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

陈牧驰陈冰官宣得子 晒一家三口握拳照

财经要闻

卧底"科技与狠活"培训:化工调味剂泛滥

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

本地
房产
健康
公开课
军事航空

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

房产要闻

首日430组来访,单日120组认筹!海口首个真四代,彻底爆了!

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军中东基地损失最新披露

无障碍浏览 进入关怀版