网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

用AI，写代码只会更慢！但一定更「快乐」

2025-07-12 19:16:32　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：海狸

【新智元导读】别自欺欺人了！METR重磅实测揭穿AI编程真相：GPT等工具让顶尖程序员写代码平均慢了整整19%！效率不升反降、体验爽感成了错觉安慰剂？开发现场变「高科技马车」，AI正在拖垮真正的高手！

每天来到工位，打开昨天没跑通的代码，

抿一口咖啡，指挥Cursor、GPT、Gemini、Deepseek...吭哧吭哧干活。

AI进化成编程怪物后，这或许是很多程序员/科研人的日常。

但是，用了AI，写代码一定更快了吗？

METR（Model Evaluation & Threat Research）研究发现，如果你够强、对代码库够熟悉，AI工具反而会给你拖后腿！

他们进行了一系列严谨的随机对照试验（RCT），结果惊人——

哪怕是写过百万行代码的万星repo大佬，使用AI工具时，干同样的任务，也会多花「19%」的时间！

更令人「细思恐极」的是，开发者完全意识不到AI在拖他们的后腿！

实验前，他们平均预计AI能提升效率24%。

即便在明明白白看到「变慢」的实验结果后，他们还是认为AI让他们快了20%。

METR把所有的实验设计和结果都放在了论文中：

论文链接：https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf

这项研究是怎么颠覆我们对AI写代码的幻

想的？

「变快」是幻觉：AI让开发者慢了19%

具体而言，METR把研究限制在了「资深开发者」和他们熟悉的「大型、成熟开源代码库」这个范围里。

为了测量AI工具在现实中的开发影响，METR招募了16位长期活跃于大型开源项目的资深开发者。

「资深」二字可不是说说而已，他们人均100万+行代码，维护的GitHub项目有22k+颗星。

这些开发者真刀真枪上阵，从他们日常工作流中收集了246个真实有价值的问题。

这些问题包括bug修复、新功能开发和重构任务等，大概长下面这样

METR将每个任务随机分配「允许使用AI」或「不允许使用AI」的对照实验组中。

在「允许」组中，开发者可以使用任何AI工具（主要是Cursor Pro搭配Claude 3.5/3.7 Sonnet等前沿模型）。

在「不允许」组中，他们不得借助生成式AI。

实验选择的每个任务平均耗时2小时。完成任务的同时，开发者需要录屏，并自报所用总时间。

随后，METR计算一个相对变化率，来衡量用不用AI的时间影响。

不过，开发者们也不白干活，METR按每小时150美元给他们付「工资」。

这笔高时薪开得很值，METR分析实验结果后发现了惊人的结论：

当开发者可以使用AI工具时，他们完成任务的平均时间反而增长了19%！

而且，从下图可以看出，使用AI写代码，全流程都被拖慢了！

这么明显的变慢打破了所有人的预期。

更令人震惊的是，开发者完全感觉不到！

在实验前，他们预计AI能提升效率24%；但从下图可以清晰看出，使用AI后，开发者用时显著增加。

然而，即便在亲身体验「变慢」后，他们仍认为AI「感觉上」让他们快了20%！

不过，METR非常严谨，声明实验仅研究特定开发者与项目，不代表整个软件开发行业，更不能推广到非软件类任务（如法律、写作、设计等）。

基准测试、用户体验，都错哪了？

为确保严谨，METR反复审查了自己的实验设计。

他们严格遵守实验分配规则，没有在AI组更频繁放弃难题，使用的AI也确实都是最强代码模型。

并且，有AI和无AI组提交的PR（Push Request）质量也没什么大差别。

既然实验设计没问题，那在AI写代码这件事上，为何benchmark和用户体验都错了？

METR对实验结果进行了进一步的分析。

首先是更细粒度的思考过程分析：

细细看了这些大佬开发者的屏幕录像后，METR发现，允许使用AI时，开发者在主动编码以及搜索/阅读信息上的时间减少了。

相对应的，开发者将更多时间花在了与AI 交互（如编写提示）、审查AI输出的结果，以及「干等」上。

METR进一步设想了20个可能导致变慢的因素，发现其中有5个可能对结果有显著贡献：

一方面，开发者对项目已经非常熟悉，远超和团队没有默契的AI；另一方面，他们对 AI 效能有点过度乐观。

另外，项目本身也很复杂，导致AI写得快但写得烂，开发者还要花很多时间调试。

最后，METR发现，这项研究与此前观点的矛盾似乎来源于任务的定义和区分。

对AI是否「能干活」这一问题，数据来源不同，得出的结论可能完全不同。

RCT实验聚焦的是「现实开发流程中是否真的更快」，基准测试关心「模型在任务标准下能打几分」，而用户主要反馈「AI用起来爽不爽」的主观感受。

换句话说，结论不一样，是因为本就在回答不同问题。

关心的是「日常提效」，还是「攻坚能力」，换换使用场景，答案可能完全不同。

每一种方法评估的都只是任务空间的子集，组合起来，或许才能客观认识AI编程的真实战力。

上岗两眼懵？AI编程不能只会刷分

METR的RCT实验提醒我们，别被AI基准测试的高分吓到了。

那些所谓的「智能体测评」「编程大赛」，看起来挺能打，实则可能离真实开发差得远。

在不需要背景、不需要理解上下文、不涉及实际部署的测试任务中训出来的AI，未必能赶上人类开发者的表现；

我们不能低估AI的能力，更不能过度乐观，觉得AI能轻松接管开发。

未来，用户对AI编程工具的期待不只是「刷分」。

我们想看的是，AI是否真的能把软件开发推进得更快、更好？

一旦AI真能做到这一点，那就意味着AI能够「无限赋能」自身的进化。

听起来很酷，但也任重道远。

如何评估AI参与真实开发部署的能力？如何设立监督护城河，保证项目安全？

METR打算继续设计实验，观察AI开发的真实实力。

他们表示，想要集结更多开发者、AI编程用户的力量，一起继续搞实验，看AI到底行不行。

不过，不管AI编程拖后腿的证据有多「实锤」，

研究中的大多数参与者，甚至研究作者本人，都并不介意被GPT之流拖一拖后腿。

面对一张白纸从零开始，或是对着一篇草稿进行编辑，即使前者更快，大家想必也都会选择后者。

毕竟，「奴役」AI写代码，虽然没法更「快了」，但一定更「快乐」。

参考资料：

https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/

https://www.reuters.com/business/ai-slows-down-some-experienced-software-developers-study-finds-2025-07-10/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

程序员不再写代码，而是靠「感觉」！年度热词Vibe Coding背后的编程革命

新智元 2025-11-10 13:14:38
0 跟贴 0
AI也邪修！Qwen3改Bug测试直接搜GitHub，太拟人了

量子位 2025-09-04 14:49:30
0 跟贴 0

上交×蚂蚁发布 DiagGym：以世界模型驱动交互式医学诊断智能体

机器之心Pro 2025-11-11 17:06:46
0 跟贴 0

AI时代，努力没用了!「躺平」才是最赚钱的方式

新智元 2025-10-27 09:05:21
18 跟贴 18
别羡慕自由职业者了

虎嗅APP 2025-11-01 04:42:08
0 跟贴 0

不怕Claude断供！豆包编程模型来了，5分钟造“我的世界”翻版，花费2毛钱

智东西 2025-11-11 17:24:22
2 跟贴 2

用 460 万美元追上 GPT-5？Kimi 团队首次回应一切，杨植麟也来了

爱范儿 2025-11-11 14:23:37
0 跟贴 0
当AI学会作弊：比坏更可怕的是坏还聪明

机器之心Pro 2025-08-29 18:45:31
0 跟贴 0

告别「面瘫」配音，InfiniteTalk开启从口型同步到全身表达新范式

机器之心Pro 2025-08-28 14:12:20
0 跟贴 0
这家好莱坞公司提供了全新的影视工业AI解决方案

钛媒体APP 2025-11-11 17:25:10
0 跟贴 0
时代杂志也做Agent了，语义问答、音频输出、多轮交互齐上阵，与Scale AI联手

智东西 2025-11-11 20:09:04
0 跟贴 0
全国首家人形机器人7S店在武汉开业

每日经济新闻 2025-11-11 15:09:05
154 跟贴 154
硅谷GPU蒙尘，马斯克一言成谶：美国AI被电卡脖子

新智元 2025-11-12 00:05:40
1 跟贴 1
65岁图灵巨头离职创业！LeCun愤然与小扎决裂，Meta巨震

新智元 2025-11-12 00:06:03
0 跟贴 0
2025进博现场 | 助听器新老厂家齐喊AI口号展商提醒验配环节可能有坑

每日经济新闻 2025-11-11 22:58:07
0 跟贴 0
为什么程序员喜欢在代码里面写脏话？

beebee 2025-08-12 11:11:07
4 跟贴 4
集体被裁员，深圳的程序员还吃香吗？

司徒微时光 2025-11-07 21:22:14
8 跟贴 8
英格兰足球竟有这样规则在比赛中允许踢人？

咪咕体育 2025-11-09 11:09:53
0 跟贴 0
这是我见过最残忍的实验

金帘说剧 2025-11-08 07:25:16
1 跟贴 1
媒体：红军城陷落在即俄军或迎巴赫穆特后最大胜利

北京日报客户端 2025-11-11 08:56:29
47293 跟贴 47293
10岁高考566分，被夸“中国陶哲轩”，24年后现状咋让家长沉默？

体育小柚 2025-11-10 18:46:09
0 跟贴 0
四川女篮战胜上海队！赛后数据一清二楚，不是李梦，最大功臣是她

张辱卤说体育 2025-11-10 02:08:11
1 跟贴 1
刚刚，豆包编程模型来了，我们用四个关卡考了考它！

机器之心Pro 2025-11-11 16:45:07
7 跟贴 7
棋局大革命：一式绝学，挑战传统胜负规则！

隐龙天下o 2025-11-08 05:52:36
1 跟贴 1
传家锅老板原来是个潮人，初中学历的他13年前自学编程

科教聚焦 2025-11-09 15:47:51
0 跟贴 0
1024特辑：能跑就行，程序员的回血存档点

36氪 2025-10-24 18:45:59
0 跟贴 0
NuerIPS唯一满分论文曝光，来自清华上交

量子位 2025-11-11 17:06:37
1 跟贴 1
11月10日每天三件事要知道

管理专家李江涛 2025-11-10 18:12:18
0 跟贴 0
别人进监狱深造，他进监狱改造

呆头鹅小知识 2025-11-10 10:11:56
4 跟贴 4
小程序开发价格多少是合理？小程序价格费用是多少？

小程序开发刚子哥 2025-11-08 21:30:08
0 跟贴 0
悲剧！年仅 27 岁在读博士校园溺亡，校方回应

生物学霸 2025-11-11 17:22:45
13 跟贴 13
15岁胡荣华大战王嘉良！软件大招，天马行空大杀四方！

象棋王闯 2025-11-12 00:02:39
0 跟贴 0
一个很简单的实验，彻底改写了物理学！

点亮经讯 2025-11-12 00:10:09
0 跟贴 0
震惊了，实验太让我震惊了

VV搞笑配音 2025-11-11 10:56:00
1 跟贴 1
厉害了！金华这波“别人家的孩子”，横扫各大奖项！

浙中在线 2025-11-11 18:17:23
0 跟贴 0
章丘少年登上全国百分榜！CCF发来贺信

章丘融媒 2025-11-08 10:22:03
0 跟贴 0
俄方宣布准备向印度转让核技术

参考消息 2025-11-11 12:42:39
19024 跟贴 19024
3巨头又刷新了，4人立下大功，谁注意斯玛特数据，成湖人宝贝了

体坛大辣椒 2025-11-11 11:33:10
3 跟贴 3
中国点名批评日本右翼媒体破防让"中国政府撤回言论"

澎湃新闻 2025-11-10 20:46:03
7190 跟贴 7190
一百年前的马克沁重机枪有多强？直接终结骑兵时代，改变战争规则

大国探索室 2025-11-11 22:17:33
0 跟贴 0

4.99万！刘强东不给雷军留活路！

4.99万！刘强东不给雷军留活路！

广告创意

2025-11-10 17:24:49

汉堡王也卖了，外资巨头怎么了？

汉堡王也卖了，外资巨头怎么了？

中产先生

2025-11-11 12:23:39

男子殴打93岁母亲后续！扇耳光、拽头发，人已被抓，打人原因曝光

男子殴打93岁母亲后续！扇耳光、拽头发，人已被抓，打人原因曝光

180视角

2025-11-11 15:43:25

封顶！全红婵老家"百年不倒"的新房，内行人看了都点头

封顶！全红婵老家"百年不倒"的新房，内行人看了都点头

GA环球建筑

2025-11-11 11:19:12

神舟二十号最新消息显示：飞船遭撞击问题不大，或仍用该飞船返回

神舟二十号最新消息显示：飞船遭撞击问题不大，或仍用该飞船返回

科普大世界

2025-11-11 16:30:58

特朗普宣称美国不再资助乌克兰

财联社

2025-11-11 19:58:35

党俊武：老龄化真正的“麻烦”是年轻人太少，生孩子是国家战略

党俊武：老龄化真正的“麻烦”是年轻人太少，生孩子是国家战略

互联网大观

2025-11-11 17:24:41

我闺蜜，一天班没上过，自己吭哧吭哧交了 15 年社保，全按最低档。

我闺蜜，一天班没上过，自己吭哧吭哧交了 15 年社保，全按最低档。

热心市民小黄

2025-11-11 11:29:59

印度首都发生恐怖袭击，莫迪或随时按下开战按钮，歼10C又将发威

印度首都发生恐怖袭击，莫迪或随时按下开战按钮，歼10C又将发威

头条爆料007

2025-11-11 21:37:01

疯传！大批媒体曝：吴亦凡监狱中绝食死亡？

疯传！大批媒体曝：吴亦凡监狱中绝食死亡？

澳洲红领巾

2025-11-11 11:25:36

张雪峰新女友身份疑曝光，两人同看演唱会举止亲密，女方才貌双全

张雪峰新女友身份疑曝光，两人同看演唱会举止亲密，女方才貌双全

古希腊掌管松饼的神

2025-11-11 13:49:47

一年狂飙21万公里，电池仅衰减5%，小米SU7车主刷新了科学

一年狂飙21万公里，电池仅衰减5%，小米SU7车主刷新了科学

木蹊说

2025-11-11 16:06:19

水晶手串在TikTok卖疯，溢价30倍，卖家已经赚翻

水晶手串在TikTok卖疯，溢价30倍，卖家已经赚翻

跨境派Pro

2025-11-10 14:38:56

阿坝州双江口红旗桥引桥为何垮塌？官方：已成立专项工作组，原因尚需进一步核查

阿坝州双江口红旗桥引桥为何垮塌？官方：已成立专项工作组，原因尚需进一步核查

澎湃新闻

2025-11-11 19:34:26

失业的负债的扎堆入局，网约车快成“难民营”了……

失业的负债的扎堆入局，网约车快成“难民营”了……

柴狗夫斯基

2025-11-11 10:25:06

德军司令：柏林已做好“开战准备”

德军司令：柏林已做好“开战准备”

环球时报国际

2025-11-11 00:09:28

雷军坚称小米SU7无抄袭被打脸！网友：不是抄，是全部搬运

雷军坚称小米SU7无抄袭被打脸！网友：不是抄，是全部搬运

麦大人

2025-11-11 20:43:26

毒株变了，传染性更强！专家提醒：这类冬季高发病马上要冲高

毒株变了，传染性更强！专家提醒：这类冬季高发病马上要冲高

新民晚报

2025-11-11 15:35:48

官方：亚马尔退出国家队，西班牙足协对其自行接受治疗不满

官方：亚马尔退出国家队，西班牙足协对其自行接受治疗不满

懂球帝

2025-11-11 18:01:10

火星撞地球，15万乌军增援波城，谁能笑到最后？

火星撞地球，15万乌军增援波城，谁能笑到最后？

史政先锋

2025-11-11 19:11:35

AI产业主平台领航智能+时代

13845文章数 66242关注度

往期回顾全部

科技要闻

苹果新品惨败，产线拆光、二代搁浅！

头条要闻

携6.1万枚比特币出逃英国富婆奢靡生活披露

头条要闻

携6.1万枚比特币出逃英国富婆奢靡生活披露

体育要闻

一个14岁的小男孩，决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO：委外代工模式存疑

汽车要闻

盈利"大考"，汽车智能化企业的中场战事

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

时尚

房产

艺术

公开课

超声探头会加重受伤情况吗？

舒淇，东亚女孩的恨海情天

房产要闻

海口湾，1300亩巨无霸地块登场！

艺术要闻

美得令人窒息！印度美女照片震撼上线！

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版