网易首页 > 网易号 > 正文 申请入驻

研究发现AI工具让开源软件开发者效率降低19%

0
分享至

当谈到大语言模型的具体应用案例时,AI公司喜欢指出编码人员和软件开发者可以如何使用这些模型来提高他们在编写计算机代码时的生产力和整体效率。然而,一项新的随机对照试验发现,有经验的开源编码人员在使用当前的AI工具时,在编码相关任务上的效率实际上有所降低。

在这项研究中,METR(模型评估与威胁研究)的研究人员招募了16名软件开发者,每个人都有多年在特定开源代码库工作的经验。研究跟踪了这些开发者完成的246个与维护这些代码库相关的单独"任务",例如"错误修复、功能开发和重构,这些通常是他们日常工作的一部分"。在这些任务中,有一半开发者使用了Cursor Pro或Anthropic的Claude等AI工具;在其他任务中,程序员被指示不使用AI辅助。每个任务的预期时间预测(在分组分配之前制定)被用作平衡每个实验组任务整体难度的代理指标,基于审查者反馈修复拉取请求所需的时间也被纳入了整体评估中。

专家和开发者本身都预期会节省时间,但当实际使用AI工具时,这种时间节省并没有实现。

在进行研究之前,参与的开发者预期AI工具会使他们完成分配任务所需的时间减少24%。即使在完成这些任务后,开发者仍然认为AI工具平均让他们提高了20%的速度。然而,实际上,AI辅助的任务最终比没有使用AI工具完成的任务慢了19%。

权衡取舍

通过分析部分研究开发者的屏幕录制数据,METR研究人员发现,AI工具往往能够减少这些开发者在积极编码、测试/调试或"阅读/搜索信息"方面花费的平均时间。但这些时间节省最终被"审查AI输出、提示AI系统和等待AI生成"以及"闲置/开销时间"(屏幕录制显示无活动)所压倒。

总体而言,研究中的开发者接受AI生成的代码而无需修改的比例不到44%。大多数开发者报告需要对其AI伴侣生成的代码进行更改,在研究的"AI辅助"部分中,总计9%的任务时间用于这种审查。

在积极编码等方面节省的时间被提示、等待和审查AI输出所需的时间所压倒。

从表面上看,METR的结果似乎与其他展示使用AI工具时编码效率提高的基准测试和实验相矛盾。但这些测试通常也以代码总行数或完成的离散任务/代码提交/拉取请求数量来衡量生产力,这些都可能是实际编码效率的不良代理指标。

许多现有的编码基准测试还专注于专门为基准测试创建的合成、算法可评分任务,这使得很难将这些结果与专注于预先存在的真实世界代码库工作的结果进行比较。沿着这些思路,METR研究中的开发者在调查中报告说,他们工作的代码库的整体复杂性(平均年龄10年,超过100万行代码)限制了AI的帮助程度。研究人员指出,AI无法利用关于代码库的"重要隐性知识或上下文",而"开发者对代码库的高度熟悉"有助于他们在这些任务中非常人性化的编码效率。

这些因素使研究人员得出结论,当前的AI编码工具可能特别不适合"具有非常高质量标准的设置,或具有许多隐含要求(例如,与文档、测试覆盖率或代码检查/格式化相关)的设置,这些要求需要人类花费大量时间来学习"。虽然这些因素可能不适用于涉及更简单代码库的"许多现实的、经济相关的设置",但它们可能会限制AI工具在本研究和类似现实世界情况中的影响。

即使对于像研究中的复杂编码项目,研究人员也乐观地认为AI工具的进一步完善可能会为程序员带来未来的效率提升。具有更好可靠性、更低延迟或更相关输出(通过提示脚手架或微调等技术)的系统"可以在我们的设置中加快开发者的速度",研究人员写道。他们说,已经有"初步证据"表明最近发布的Claude 3.7"通常可以正确实现我们研究中包含的几个代码库中问题的核心功能"。

然而,目前METR的研究提供了一些强有力的证据,表明AI在编码任务中备受推崇的实用性在某些复杂的现实世界编码场景中可能存在重大限制。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
投资大佬突然警告:A股大量的热门股,未来可能跌掉八至九成!

投资大佬突然警告:A股大量的热门股,未来可能跌掉八至九成!

依偎在角落
2026-06-28 11:09:07
原来他就是迟蓬的丈夫,是我们熟悉的资深大导演,公公是电影明星

原来他就是迟蓬的丈夫,是我们熟悉的资深大导演,公公是电影明星

一盅情怀
2026-06-28 13:18:54
世界杯主帅薪资曝光:安切洛蒂年薪7755万居榜首

世界杯主帅薪资曝光:安切洛蒂年薪7755万居榜首

人类文明之光
2026-06-28 11:23:28
日本坏心思根本藏不住,对华签证费一口气上涨5倍,中方正式改口

日本坏心思根本藏不住,对华签证费一口气上涨5倍,中方正式改口

婲颜明蕴
2026-06-25 18:45:52
洛塞尔索:梅西正在享受足球,每天看到他的表现都让人心潮澎湃

洛塞尔索:梅西正在享受足球,每天看到他的表现都让人心潮澎湃

砚底沉香
2026-06-28 15:18:07
宗馥莉再出手,把名字印在了包装上

宗馥莉再出手,把名字印在了包装上

趣味萌宠的日常
2026-06-28 12:05:56
何立峰在四川调研

何立峰在四川调研

政知新媒体
2026-06-28 16:44:00
58岁鲍尔自曝:截肢后,结婚30年的妻子选择离开

58岁鲍尔自曝:截肢后,结婚30年的妻子选择离开

时光慢旅人
2026-06-28 00:49:29
内分泌科主任:糖尿病最危险信号,不是瘙痒,是频繁出现5异常

内分泌科主任:糖尿病最危险信号,不是瘙痒,是频繁出现5异常

观星赏月
2026-06-28 09:03:36
最后的疯狂:许家印被抓捕的失控三秒钟,简直是惊心动魄

最后的疯狂:许家印被抓捕的失控三秒钟,简直是惊心动魄

橘仔看世界
2026-06-27 08:38:00
外媒:乌克兰空军称,乌军一架米格-29战机在执行任务过程中坠毁

外媒:乌克兰空军称,乌军一架米格-29战机在执行任务过程中坠毁

环球网资讯
2026-06-28 15:37:09
儿子出国后16年没联系,我癌症住院时,主治医生摘下口罩:妈

儿子出国后16年没联系,我癌症住院时,主治医生摘下口罩:妈

五元讲堂
2025-06-12 15:16:01
1978 年郭沫若病重,日妻前来探视,二人此生竟未再相见

1978 年郭沫若病重,日妻前来探视,二人此生竟未再相见

磊子讲史
2026-03-26 15:23:26
出局!宣布辞职!

出局!宣布辞职!

五星体育
2026-06-28 09:53:33
苹果一夜蒸发18000亿:美光暴涨,美国最后一家内存公司,47年熬死所有对手 | 硬核观察

苹果一夜蒸发18000亿:美光暴涨,美国最后一家内存公司,47年熬死所有对手 | 硬核观察

一刻talks丨硬科技趣思想
2026-06-27 19:36:23
A股:传来两个消息,明天,周一重要时刻来了!

A股:传来两个消息,明天,周一重要时刻来了!

明心
2026-06-28 10:30:14
董卿也没想到,自己辛苦教养长大的儿子,如今竟给密春雷做了嫁衣

董卿也没想到,自己辛苦教养长大的儿子,如今竟给密春雷做了嫁衣

蜉蝣说
2026-06-28 10:08:39
昔日6号秀遭放弃!魔术正式裁掉艾萨克 节省650万美元奢侈税

昔日6号秀遭放弃!魔术正式裁掉艾萨克 节省650万美元奢侈税

罗说NBA
2026-06-28 06:07:53
玄学提醒:和你有过肌肤之亲的女人,是前世亏欠过你的人!

玄学提醒:和你有过肌肤之亲的女人,是前世亏欠过你的人!

糖逗在娱乐
2026-06-28 14:34:50
为什么说不体面的小生意往往赚大钱?网友:一天三千都算少的

为什么说不体面的小生意往往赚大钱?网友:一天三千都算少的

康富贵碎碎念
2026-06-28 11:22:01
2026-06-28 17:27:00
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
19665文章数 49712关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

武契奇宣布数周后辞职 媒体:或为他出任总理铺平道路

头条要闻

武契奇宣布数周后辞职 媒体:或为他出任总理铺平道路

体育要闻

韩国可算确定被淘汰了

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

两只股票撑起的韩国股市,半年熔断 33 次

汽车要闻

蔚来ES大五座体验 全场景行李舱让你带着生活出发

态度原创

教育
家居
艺术
时尚
本地

教育要闻

求100元✖️100元=?

家居要闻

绿意盎然 自然之境

艺术要闻

15幅 乔治·莫兰迪的静物花卉特辑

今天的脸不想营业,但墨镜想

本地新闻

世界杯球迷节:比球赛更好玩的派对

无障碍浏览 进入关怀版