网易首页 > 网易号 > 正文 申请入驻

登顶开源AI软件工程师榜首,UIUC无Agent方案解决真实编程问题

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

这篇论文的作者均来自伊利诺伊大学香槟分校(UIUC)张令明老师团队,包括:Steven Xia,四年级博士生,研究方向是基于 AI 大模型的自动代码修复;邓茵琳,四年级博士生,研究方向是基于 AI 大模型的代码生成;Soren Dunn,科研实习生,目前为 UIUC 大三学生。张令明老师现任 UIUC 计算机系副教授,主要从事软件工程、机器学习、代码大模型的相关研究。

更多详细信息请见张老师的个人主页:https://lingming.cs.illinois.edu/

自从 Devin(首个全自动 AI 软件工程师)提出以来,针对软件工程的 AI Agent 的设计成为研究的焦点,越来越多基于 Agent 的 AI 自动软件工程师被提出,并在 SWE-bench 数据集上取得了不俗的表现、自动修复了许多真实的 GitHub issue。

然而,复杂的 Agent 系统会带来额外的开销和不确定性,我们真的需要使用如此复杂的 Agent 来解决 GitHub issue 吗?不依赖 Agent 的解决方案能接近它们的性能吗?

从这两个问题出发,伊利诺伊大学香槟分校(UIUC)张令明老师团队提出了 OpenAutoCoder-Agentless,一个简单高效并且完全开源的无 Agent 方案,仅需 $0.34 就能解决一个真实的 GitHub issue。Agentless 在短短几天内在 GitHub 上已经吸引了超过 300 GitHub Star,并登上了 DAIR.AI 每周最热 ML 论文榜单前三。

论文:AGENTLESS : Demystifying LLM-based Software Engineering Agents

论文地址:https://huggingface.co/papers/2407.01489

开源代码:https://github.com/OpenAutoCoder/Agentless

AWS 研究科学家 Leo Boytsov 表示:“Agentless 框架表现优异,超过所有开源 Agent 解决方案,几乎达到 SWE Bench Lite 最高水平(27%)。而且,它以显著更低的成本击败了所有开源方案。该框架采用分层查询方法(通过向 LLM 提问来查找文件、类、函数等)以确定补丁位置。虽然利用 LLM,但不允许 LLM 做出规划决策。”

Agentless 是一种自动解决软件开发问题的方法,它使用简单的两阶段方法进行定位和修复,以修复代码库中的 bug。在定位阶段,Agentless 以分层方式来逐步缩小到可疑的文件、类 / 函数和具体的编辑位置。对于修复,它使用简单的 diff 格式(参考自开源工具 Aider)来生成多个候选补丁,并对其进行过滤和排序。

研究者将 Agentless 与现有的 AI Software Agent 进行了比较,其中包括最先进的开源和商业 / 闭源项目。令人惊讶的是,Agentless 可以以更低的成本超越所有现有的开源 Software Agent!Agentless 解决了 27.33% 的问题,是开源方案中最高的,并且解决每个问题平均仅需 $0.29,在所有问题上(包括能解决和未解决的)平均只需要约 $0.34。

不仅如此,Agentless 还有改进的潜力。在考虑所有生成的补丁时,Agentless 可以解决 41% 的问题,这个上限表明补丁排序和选择阶段有显著的改进空间。此外,Agentless 能够解决一些即使是最好的商业工具(Alibaba Lingma Agent)也无法解决的独特问题,这表明它可以作为现有工具的补充。

对 SWE-bench Lite 数据集的分析

研究者还对 SWE-bench Lite 数据集进行了人工检查和详细分析。

研究发现,SWE-bench Lite 数据集中,有 4.3% 的问题在问题描述中直接给出了完整的答案,也就是正确的修复补丁。而另外 10% 的问题描述了正确解决方案的确切步骤。这表明,SWE-bench Lite 中的某些问题可能更容易解决。

此外,研究团队观察到有 4.3% 的问题在问题描述中包含了用户提议的解决方案或者步骤,但这些方案与开发人员的真实补丁并不一致。这进一步揭示了该基准测试的潜在问题,因为这些误导性解决方案可能导致 AI 工具仅通过遵循问题描述来生成不正确的解决方案。

在问题描述质量方面,研究者观察到,虽然 SWE-bench Lite 中大部分的任务都包含了足够的信息,并且许多任务还提供了失败示例来复现错误,但是仍有 9.3% 的问题没有包含足够的信息。例如需要实现一个新的函数或者添加一个错误信息,但是特定的函数名或者特定的错误信息字符串并没有在问题描述中给出。这意味着即使正确实现了底层功能,如果函数名或错误信息字符串不完全匹配,测试也会失败。

普林斯顿大学的研究人员,同时也是 SWE-Bench 的作者之一,Ofir Press 确认了他们的发现:“Agentless 对 SWE-bench Lite 进行了不错的手动分析。他们认为 Lite 上的理论最高得分可能是 90.7%。我觉得实际的上限可能会更低(大约 80%)。一些问题的信息不足,另一些问题的测试过于严格。”

SWE-bench Lite-S:经过过滤的严格问题子集

针对这些问题,研究者提出了一个严格的问题子集 SWE-bench Lite-S(包含 252 个问题)。具体来说,从 SWE-bench Lite(包含 300 个问题)中排除了那些在问题描述中包含确切补丁、误导性解决方案或未提供足够信息的问题。这样可以去除不合理的问题,并使基准测试的难度水平标准化。与原始的 SWE-bench Lite 相比,过滤后的基准测试更准确地反映了自动软件开发工具的真实能力。

结语

尽管基于 Agent 的软件开发非常有前景,作者们认为技术和研究社区是时候停下来思考其关键设计与评估方法,而不是急于发布更多的 Agent。研究者希望 Agentless 可以帮助重置未来软件工程 Agent 的基线和方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1956年罗源湾空战:八架米格-15对两架F-84,两米格反被台机击落

1956年罗源湾空战:八架米格-15对两架F-84,两米格反被台机击落

芳芳历史烩
2026-05-03 17:46:09
“最美丈母娘”沈丹萍:女儿婚房仅40平米,她处处替女婿家着想

“最美丈母娘”沈丹萍:女儿婚房仅40平米,她处处替女婿家着想

细品名人
2026-05-02 05:59:32
涉嫌严重违纪违法,莫君被查

涉嫌严重违纪违法,莫君被查

都市快报橙柿互动
2026-05-03 21:31:30
曝火箭不会解雇乌度卡斯通!详解补强三条路径:四大球星或成目标

曝火箭不会解雇乌度卡斯通!详解补强三条路径:四大球星或成目标

越岭寻踪
2026-05-03 06:52:28
5杆破50!吴宜泽轰6-3攻击波:10-7结束第2阶段 墨菲摇头观众鼓掌

5杆破50!吴宜泽轰6-3攻击波:10-7结束第2阶段 墨菲摇头观众鼓掌

风过乡
2026-05-04 05:59:46
赖清德非洲窜访陷困局!盼他回不来的,不是大陆,是民进党自己人

赖清德非洲窜访陷困局!盼他回不来的,不是大陆,是民进党自己人

坠入二次元的海洋
2026-05-04 06:27:41
女演员长相多重要?看42岁唐嫣跟33岁杨采钰,才知长相成熟多吃亏

女演员长相多重要?看42岁唐嫣跟33岁杨采钰,才知长相成熟多吃亏

剧芒芒
2026-05-01 12:53:20
国米加冕为两大舰长正名 神奇纪录托出意甲最伟大的足球掌舵

国米加冕为两大舰长正名 神奇纪录托出意甲最伟大的足球掌舵

国际足球冷雪
2026-05-04 07:17:11
特斯拉推出 Model Y L 置物板,售价 249 元,车主:做工、质感不错!

特斯拉推出 Model Y L 置物板,售价 249 元,车主:做工、质感不错!

新浪财经
2026-05-03 16:29:56
女人说“我想上厕所”,其实是在暗示你,别不懂

女人说“我想上厕所”,其实是在暗示你,别不懂

艺鉴在线
2026-05-04 07:23:36
艾伦打丢手摆位黑球!痛失93万奖金,与丁俊晖一样,仍无缘大满贯

艾伦打丢手摆位黑球!痛失93万奖金,与丁俊晖一样,仍无缘大满贯

球场没跑道
2026-05-03 07:32:51
赢球挨喷!曼联昔日王牌断崖下滑,红魔新加纳乔早该上位

赢球挨喷!曼联昔日王牌断崖下滑,红魔新加纳乔早该上位

澜归序
2026-05-04 02:10:45
4499元!苹果正式官宣:5月1日,两款新机长期断货!

4499元!苹果正式官宣:5月1日,两款新机长期断货!

搞机小帝
2026-05-02 00:04:03
反转!追梦沦为交易筹码,杜兰特或重返金州,库里的第五冠稳了?

反转!追梦沦为交易筹码,杜兰特或重返金州,库里的第五冠稳了?

体育大朋说
2026-05-03 17:10:03
植物人女婿沉睡9年突然开口,第一句话让岳母当场跪地痛哭!

植物人女婿沉睡9年突然开口,第一句话让岳母当场跪地痛哭!

小虎新车推荐员
2026-05-03 08:52:44
上海富商花2000万,让情人生3个孩子,2019年后得知娃都不是他的

上海富商花2000万,让情人生3个孩子,2019年后得知娃都不是他的

汉史趣闻
2026-04-24 18:35:46
汪涵广电大厅抽雪茄欲盖弥彰,老戏骨的真实该有边界吗?

汪涵广电大厅抽雪茄欲盖弥彰,老戏骨的真实该有边界吗?

南万说娱26
2026-05-03 09:10:28
欧盟谴责巴勒斯坦权力机构教科书中包含反犹主义、美化圣战,将援助与和平挂钩

欧盟谴责巴勒斯坦权力机构教科书中包含反犹主义、美化圣战,将援助与和平挂钩

老王说正义
2026-05-03 23:48:36
富不过三代!香港铺王之子邓耀升被申请破产,4年卖光90个物业,800亿帝国碎成渣

富不过三代!香港铺王之子邓耀升被申请破产,4年卖光90个物业,800亿帝国碎成渣

数局
2026-05-03 16:52:23
别再跟风了!五一最堵五大景点,第5名挤到劝退,第1名直接崩溃

别再跟风了!五一最堵五大景点,第5名挤到劝退,第1名直接崩溃

吃青菜长高
2026-05-03 08:12:17
2026-05-04 08:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12905文章数 142639关注度
往期回顾 全部

科技要闻

OpenAI“复活”了QQ宠物,网友直接玩疯

头条要闻

退赛冲上热搜第一 张雪回应:更深的原因还需要解析

头条要闻

退赛冲上热搜第一 张雪回应:更深的原因还需要解析

体育要闻

曼联3-2双杀利物浦!提前三轮锁定欧冠资格 梅努制胜

娱乐要闻

黄晓明五一带娃去游乐场 父子幸福同框

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

房产
家居
本地
艺术
公开课

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

家居要闻

灵动实用 生活艺术场

本地新闻

用青花瓷的方式,打开西溪湿地

艺术要闻

陈丹青:文艺青年吴冠中

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版