网易首页 > 网易号 > 正文 申请入驻

超6万GitHub项目实测:Agent写代码效率暴涨,通过率仍落后人类

0
分享至

来源:市场资讯

(来源:DeepTech深科技)

当 AI 用 3 天完成人类程序员原本3年的代码任务量,人类的角色会发生怎样的变化?

当前,AI 正在从工具变为人类的“队友”。随着大模型的加速发展,AI 在软件工程领域的作用已不再是辅助代码补全,而是正在成为可自主编码的智能体(Agent)。

现在,我们只需向 AI 描述代码想要实现的功能,它就能自动生成完整代码;借助 Agent,甚至能在十几分钟内完成千行级别的代码生成或修改。

近期,加拿大女王大学博士后李豪与所在团队在一项研究中首次构建了一个大规模数据集 AIDev,系统分析和统计了自主编码 Agent 在 7,000 多个较流行的软件中的实际表现和影响。

其覆盖范围包括在 GitHub 平台上已提交的超 45.6 万条 Agent 代码合并请求(PR,pull requests),涵盖 6.1 万个代码库和 4.7 万名开发者,包括主流的 AI 编码工具 OpenAI Codex、GitHub Copilot、Devin、Cursor 和 Claude Code。


图丨李豪(来源:受访者)

研究人员在 AI 领域和软件工程做相关研究时,往往会选择用 SWE-bench 做测试,通过交给 AI 一些高质量、有测试样例的任务,来优化 AI 性能以及优化系统设计等。

但这也带来了很多挑战性的问题。例如,一家公司如果将测试题目用于训练模型,极有可能因“作弊”导致分数虚高。此外,由于 SWE-bench 是一个静态的基准集(benchmark),部分数据有可能存在一定滞后性。

李豪指出,该研究最大的不同点在于,AIDev 是真实世界、大规模、实时采集数据的数据集,更贴近于业界实践和生产。此外,研究人员还可以利用该数据集打造更新的 benchmark。


(来源:arXiv)

研究团队在 AI 编码 Agent 的速度和质量方面找到了有趣的发现。一项个例分析结果显示,有开发者在使用 AI 编码 Agent 后,3 天内完成的任务量接近其过去 3 年的总量。

而 AI 在自然语言处理方面的优势,也同样值得关注。他们发现,AI 在编写代码或文本方面的任务中表现优异,例如从文档相关的合并请求接受率来看,OpenAI Codex 和 Claude Code 分别为 88.6% 和 85.7%,而人类在该方面表现为 76.5%。


(来源:arXiv)

合并请求接受率是衡量 AI 产出质量和可信度的关键指标,它与人类开发者/项目维护者对 AI 贡献的认可度密切相关。该团队还发现,编码 Agent 的合并请求接受率比人类开发者低 15% 至 40%(不同任务类型下区间差异显著),尤其是在新功能开发、修复 Bug 等复杂的任务方面。例如,OpenAI Codex 的 PR 接受率为 64%,而人类开发者的 PR 接受率高达 76.8%。

这意味着,AI 写代码并非全面超越了人类。需要看到的是,尽管目前 AI 编码 Agent 生成速度很快,但性能方面还有一些缺陷,在结构上也相对较简单,需要研究人员继续对其进行增强,以确保代码的长期可维护性。

李豪对 DeepTech 表示:“短期看,AI Agent 的代码接受率相对人类较低,效率与质量的取舍仍需权衡(trade-off),但这种磨合期对应的是数据飞轮的启动阶段,形成飞轮效应后,我们有望获得生产力的显著提升。”


(来源:arXiv)

该研究通过分析自主编码 Agent 的表现,为未来更好地优化人与 AI 协作提供了数据基础。这也带来了一种全新的生成模式,开发者面临的问题不是如何写更多的代码,而是接到一项任务后,如何拆分成更细的任务,再管理这些 AI 更好地执行。

“该方向在学界和产业界还存在较大的空白。编程人员的角色也会逐渐从写代码的人,转换成提供代码审查或提供管理模式的人。目前,我们也在做相关的研究,来探索新一代软件开发流程来支持开发者们利用 AI Agent。”李豪表示。

此外研究还揭示出,尽管 AI 的出现推动了人机协同审查流程,但同时也可能会带来偏见等问题。例如,假如 AI 写代码的 Agent 与审查代码的机器人自同一公司,很有可能在AI审查环节忽视某些特定类型的错误。

在未来的研究中,该团队计划建立更全面的 benchmark,对 AI 编程 Agent 进行真实的表现评测。他们还打算建立新知识库,推动领域内的研究人员共同改进相关方向,包括如何更好地预测和分析AI可能的失败场景,以及失败原因等。从更长远的发展来看,探索更自动化与标准化的审查机制,也是一个值得深入研究的方向。

相关论文以《软件工程 3.0 中 AI 队友的崛起:自主编码 Agent 如何重塑软件工程》(The Rise of AI Teammates in Software Engineering (SE) 3.0: How Autonomous Coding Agents Are Reshaping Software Engineering)为题发表在 arXiv[1]。目前,相关代码已在 GitHub 开源。

参考资料:

1.相关论文:https://arxiv.org/abs/2507.15003v1

2.AIDev 数据集获取:https://github.com/SAILResearch/AI_Teammates_in_SE3

排版:胡莉花

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
市中心小裁缝铺马年文创爆卖150万元,主理人说“上海是灵感实验室”

市中心小裁缝铺马年文创爆卖150万元,主理人说“上海是灵感实验室”

上观新闻
2026-02-17 11:37:10
我看完今年的马年春晚后,说几句肺腑之言,都是自己的真感受

我看完今年的马年春晚后,说几句肺腑之言,都是自己的真感受

神牛
2026-02-16 23:55:46
冯小刚夫妻美国陪养女过年!徐帆忙着炒菜包饺子,豪宅内景很破旧

冯小刚夫妻美国陪养女过年!徐帆忙着炒菜包饺子,豪宅内景很破旧

社会日日鲜
2026-02-17 08:08:09
王菲马年春晚口碑已出,观众评价出奇一致,才知龚琳娜真没说错!

王菲马年春晚口碑已出,观众评价出奇一致,才知龚琳娜真没说错!

白色得季节
2026-02-17 15:33:25
台湾终极解决方案:土地回归中国,人员往来自由,逃走不是中国人

台湾终极解决方案:土地回归中国,人员往来自由,逃走不是中国人

晨光苏醒a
2026-02-13 09:16:50
痛失儿子一年后,84岁高明和老伴在云南安享晚年,孙女夹菜很孝顺

痛失儿子一年后,84岁高明和老伴在云南安享晚年,孙女夹菜很孝顺

小虎新车推荐员
2026-02-17 10:20:59
姆巴佩屡失良机,维尼修斯世界波+罢赛抗议,皇马1-0复仇本菲卡

姆巴佩屡失良机,维尼修斯世界波+罢赛抗议,皇马1-0复仇本菲卡

钉钉陌上花开
2026-02-18 06:03:52
每次在公公家吃完饭后都头晕,回自己家或外卖就没事,我装上监控

每次在公公家吃完饭后都头晕,回自己家或外卖就没事,我装上监控

艺鉴在线
2026-02-17 22:19:01
被山西人的“阳台”惊呆了,张灯结彩、霓虹闪烁,那叫一个喜庆

被山西人的“阳台”惊呆了,张灯结彩、霓虹闪烁,那叫一个喜庆

美家指南
2026-02-17 16:59:57
西方国家纷纷与昂山素季划清界限,背后的原因是什么,她究竟做错了什么?

西方国家纷纷与昂山素季划清界限,背后的原因是什么,她究竟做错了什么?

老杉说历史
2026-01-20 16:58:09
全面取消!中国反制手段升级!高市慌了,踩红线让日本已无力承受

全面取消!中国反制手段升级!高市慌了,踩红线让日本已无力承受

趣生活
2026-02-17 16:43:20
8死2伤!江苏烟花爆燃死伤者身份曝光,责任人被控制大量内幕披露

8死2伤!江苏烟花爆燃死伤者身份曝光,责任人被控制大量内幕披露

博士观察
2026-02-16 23:12:50
23岁懒死家中,“中国第一懒人”杨锁到底有多懒,守着肉菜被饿死

23岁懒死家中,“中国第一懒人”杨锁到底有多懒,守着肉菜被饿死

荷兰豆爱健康
2026-02-15 23:40:22
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
阿尔茨海默病者逐渐增多,医生提醒:55岁后,尽量改掉6个坏习惯

阿尔茨海默病者逐渐增多,医生提醒:55岁后,尽量改掉6个坏习惯

39健康网
2026-02-17 18:31:37
苹果,突然官宣!

苹果,突然官宣!

每日经济新闻
2026-02-17 07:47:09
为什么99%的动物都通不过“坐骑”面试?马:全靠同行衬托

为什么99%的动物都通不过“坐骑”面试?马:全靠同行衬托

中国科普博览
2026-02-16 17:30:03
春晚主持人刘心悦透露体重仅93斤:压力瘦,收获近年体重最低

春晚主持人刘心悦透露体重仅93斤:压力瘦,收获近年体重最低

大象新闻
2026-02-17 22:43:05
巴尔韦德:队友们都听到普雷斯蒂安尼说了很难听的话

巴尔韦德:队友们都听到普雷斯蒂安尼说了很难听的话

懂球帝
2026-02-18 06:39:06
她是北京海淀独生女,当演员大红大紫,今43岁退休住别墅财富自由

她是北京海淀独生女,当演员大红大紫,今43岁退休住别墅财富自由

徐帮阳
2025-12-31 23:40:48
2026-02-18 07:11:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2225874文章数 5491关注度
往期回顾 全部

科技要闻

春晚这些机器人是怎样做到的?

头条要闻

加州州长纽森炮轰特朗普:把美国未来卖给中国

头条要闻

加州州长纽森炮轰特朗普:把美国未来卖给中国

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

春节档电影首波口碑出炉!

财经要闻

大年初一,这三件事很不寻常

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

家居
旅游
本地
时尚
公开课

家居要闻

中古雅韵 乐韵伴日常

旅游要闻

特写:流光溢彩映维港 花车巡游贺新春

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

今年春天最流行的4组配色,过年穿时髦又高级!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版