网易首页 > 网易号 > 正文 申请入驻

超6万GitHub项目实测:Agent写代码效率暴涨,通过率仍落后人类

0
分享至

当 AI 用 3 天完成人类程序员原本3年的代码任务量,人类的角色会发生怎样的变化?

当前,AI 正在从工具变为人类的“队友”。随着大模型的加速发展,AI 在软件工程领域的作用已不再是辅助代码补全,而是正在成为可自主编码的智能体(Agent)。

现在,我们只需向 AI 描述代码想要实现的功能,它就能自动生成完整代码;借助 Agent,甚至能在十几分钟内完成千行级别的代码生成或修改。

近期,加拿大女王大学博士后李豪与所在团队在一项研究中首次构建了一个大规模数据集 AIDev,系统分析和统计了自主编码 Agent 在 7,000 多个较流行的软件中的实际表现和影响。

其覆盖范围包括在 GitHub 平台上已提交的超 45.6 万条 Agent 代码合并请求(PR,pull requests),涵盖 6.1 万个代码库和 4.7 万名开发者,包括主流的 AI 编码工具 OpenAI Codex、GitHub Copilot、Devin、Cursor 和 Claude Code。


图丨李豪(来源:受访者)

研究人员在 AI 领域和软件工程做相关研究时,往往会选择用 SWE-bench 做测试,通过交给 AI 一些高质量、有测试样例的任务,来优化 AI 性能以及优化系统设计等。

但这也带来了很多挑战性的问题。例如,一家公司如果将测试题目用于训练模型,极有可能因“作弊”导致分数虚高。此外,由于 SWE-bench 是一个静态的基准集(benchmark),部分数据有可能存在一定滞后性。

李豪指出,该研究最大的不同点在于,AIDev 是真实世界、大规模、实时采集数据的数据集,更贴近于业界实践和生产。此外,研究人员还可以利用该数据集打造更新的 benchmark。


(来源:arXiv)

研究团队在 AI 编码 Agent 的速度和质量方面找到了有趣的发现。一项个例分析结果显示,有开发者在使用 AI 编码 Agent 后,3 天内完成的任务量接近其过去 3 年的总量。

而 AI 在自然语言处理方面的优势,也同样值得关注。他们发现,AI 在编写代码或文本方面的任务中表现优异,例如从文档相关的合并请求接受率来看,OpenAI Codex 和 Claude Code 分别为 88.6% 和 85.7%,而人类在该方面表现为 76.5%。


(来源:arXiv)

合并请求接受率是衡量 AI 产出质量和可信度的关键指标,它与人类开发者/项目维护者对 AI 贡献的认可度密切相关。该团队还发现,编码 Agent 的合并请求接受率比人类开发者低 15% 至 40%(不同任务类型下区间差异显著),尤其是在新功能开发、修复 Bug 等复杂的任务方面。例如,OpenAI Codex 的 PR 接受率为 64%,而人类开发者的 PR 接受率高达 76.8%。

这意味着,AI 写代码并非全面超越了人类。需要看到的是,尽管目前 AI 编码 Agent 生成速度很快,但性能方面还有一些缺陷,在结构上也相对较简单,需要研究人员继续对其进行增强,以确保代码的长期可维护性。

李豪对 DeepTech 表示:“短期看,AI Agent 的代码接受率相对人类较低,效率与质量的取舍仍需权衡(trade-off),但这种磨合期对应的是数据飞轮的启动阶段,形成飞轮效应后,我们有望获得生产力的显著提升。”


(来源:arXiv)

该研究通过分析自主编码 Agent 的表现,为未来更好地优化人与 AI 协作提供了数据基础。这也带来了一种全新的生成模式,开发者面临的问题不是如何写更多的代码,而是接到一项任务后,如何拆分成更细的任务,再管理这些 AI 更好地执行。

“该方向在学界和产业界还存在较大的空白。编程人员的角色也会逐渐从写代码的人,转换成提供代码审查或提供管理模式的人。目前,我们也在做相关的研究,来探索新一代软件开发流程来支持开发者们利用 AI Agent。”李豪表示。

此外研究还揭示出,尽管 AI 的出现推动了人机协同审查流程,但同时也可能会带来偏见等问题。例如,假如 AI 写代码的 Agent 与审查代码的机器人自同一公司,很有可能在AI审查环节忽视某些特定类型的错误。

在未来的研究中,该团队计划建立更全面的 benchmark,对 AI 编程 Agent 进行真实的表现评测。他们还打算建立新知识库,推动领域内的研究人员共同改进相关方向,包括如何更好地预测和分析AI可能的失败场景,以及失败原因等。从更长远的发展来看,探索更自动化与标准化的审查机制,也是一个值得深入研究的方向。

相关论文以《软件工程 3.0 中 AI 队友的崛起:自主编码 Agent 如何重塑软件工程》(The Rise of AI Teammates in Software Engineering (SE) 3.0: How Autonomous Coding Agents Are Reshaping Software Engineering)为题发表在 arXiv[1]。目前,相关代码已在 GitHub 开源。

参考资料:

1.相关论文:https://arxiv.org/abs/2507.15003v1

2.AIDev 数据集获取:https://github.com/SAILResearch/AI_Teammates_in_SE3

排版:胡莉花

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一生7次叛变,1947年携华野4个师投降蒋介石,终遭历史清算

一生7次叛变,1947年携华野4个师投降蒋介石,终遭历史清算

阿諢体育
2026-02-16 11:05:45
荷兰明要抢,英国要明抢,澳大利亚要明抢,巴拿马也要明抢……

荷兰明要抢,英国要明抢,澳大利亚要明抢,巴拿马也要明抢……

百态人间
2026-02-04 15:52:55
市政府副秘书长、区委副书记、区长吴金城检查上海国际旅游度假区春节安全生产工作

市政府副秘书长、区委副书记、区长吴金城检查上海国际旅游度假区春节安全生产工作

上观新闻
2026-02-17 14:17:32
安东尼:没有詹姆斯,这个联盟就转不起来

安东尼:没有詹姆斯,这个联盟就转不起来

懂球帝
2026-02-17 14:05:26
居民楼麻将馆整治提前行动,2026禁令未到先抄后路

居民楼麻将馆整治提前行动,2026禁令未到先抄后路

似水流年忘我
2026-02-17 21:09:05
1969年,毛主席特选一人为第九届中央委员,并说:他是我的老朋友

1969年,毛主席特选一人为第九届中央委员,并说:他是我的老朋友

大运河时空
2026-02-17 16:10:03
乌克兰带来世界三个好消息,这才是俄乌战争的真相

乌克兰带来世界三个好消息,这才是俄乌战争的真相

听风听你
2026-02-17 15:40:33
中缅边境通婚严重,为了能在中国定居,缅甸女孩也太拼了

中缅边境通婚严重,为了能在中国定居,缅甸女孩也太拼了

老谢谈史
2025-12-09 20:27:39
王菲唱得好不好听,真的不重要,有人看明白了她的境界

王菲唱得好不好听,真的不重要,有人看明白了她的境界

安宁007
2026-02-17 08:10:47
麦克拉伦:滕哈格曾要求C罗执行高位逼抢,但后者不愿意接受

麦克拉伦:滕哈格曾要求C罗执行高位逼抢,但后者不愿意接受

懂球帝
2026-02-17 17:37:20
欧冠淘汰赛附加赛前瞻|本菲卡2-1皇马:皇马西甲雄起欧冠走衰

欧冠淘汰赛附加赛前瞻|本菲卡2-1皇马:皇马西甲雄起欧冠走衰

体育世界
2026-02-17 16:27:18
细思极恐!美国人口不足全球6%,却供应全球70%血浆,真相如何?

细思极恐!美国人口不足全球6%,却供应全球70%血浆,真相如何?

探谜未知世界
2026-02-17 21:00:04
从杭州借道俄罗斯回东北的女孩已抵达黑河家中:耗时5天4夜,比国内直飞节约500多元,还玩了两个俄罗斯城市

从杭州借道俄罗斯回东北的女孩已抵达黑河家中:耗时5天4夜,比国内直飞节约500多元,还玩了两个俄罗斯城市

极目新闻
2026-02-16 20:11:03
赚钱一定要去暴利的行业。

赚钱一定要去暴利的行业。

流苏晚晴
2026-02-09 18:55:39
DeepSeek推荐:一个家庭越来越富有的七个习惯

DeepSeek推荐:一个家庭越来越富有的七个习惯

洞见
2026-02-06 09:43:30
突发!贝林厄姆秘密签约曼联!只等皇马一个决定

突发!贝林厄姆秘密签约曼联!只等皇马一个决定

澜归序
2026-02-17 05:45:52
米兰冬奥|空中技巧预赛因大雪延迟,赛场化身大型“雪地卡拉OK”

米兰冬奥|空中技巧预赛因大雪延迟,赛场化身大型“雪地卡拉OK”

上观新闻
2026-02-17 19:46:11
比亚迪2月连放三招:固态电池、兆瓦闪充、智驾5.0今年全落地

比亚迪2月连放三招:固态电池、兆瓦闪充、智驾5.0今年全落地

小怪吃美食
2026-02-17 16:30:57
著名歌手高枫,病逝21年后,妹妹定居美国,父母的坚持令人泪目

著名歌手高枫,病逝21年后,妹妹定居美国,父母的坚持令人泪目

小熊侃史
2026-02-16 07:05:10
王一博春晚表演完台下遇到熟人!示意对方打电话,人气狂飙2.3亿

王一博春晚表演完台下遇到熟人!示意对方打电话,人气狂飙2.3亿

小娱乐悠悠
2026-02-16 23:36:26
2026-02-17 21:47:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16280文章数 514616关注度
往期回顾 全部

科技要闻

春晚这些机器人是怎样做到的?

头条要闻

企业家给全村70岁以上老人发红包 老人:他比亲儿子还亲

头条要闻

企业家给全村70岁以上老人发红包 老人:他比亲儿子还亲

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

春节档电影首波口碑出炉!

财经要闻

大年初一,这三件事很不寻常

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

家居
本地
手机
数码
公开课

家居要闻

中古雅韵 乐韵伴日常

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

手机要闻

行业首次:华为Mate 80系列圆满完成央视春晚最高规格直播考验

数码要闻

RTX 5090/5070 Ti带头:全球显卡价格普涨15%!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版