网易首页 > 网易号 > 正文 申请入驻

南开大学等机构联合研究揭示:AI编程助手在复杂任务中表现不佳

0
分享至


这项由南开大学、上海人工智能实验室、上海交通大学等多家知名机构合作开展的研究发表于2026年2月的arXiv预印本平台,论文编号为arXiv:2602.14337v1。想象一下你雇佣了一个声称"无所不能"的编程助手,给它一份详细的软件开发需求书,结果几天后它交给你一个半成品——要么功能只完成了三成,要么虽然新功能勉强能用但把原有功能搞砸了。这正是当前最先进AI编程代理面临的尴尬处境。

在人工智能快速发展的今天,各种AI编程助手如雨后春笋般涌现,它们声称能够像人类工程师一样理解需求、编写代码、调试程序。然而,现有的评估基准就像是只考察厨师能否煎蛋的烹饪比赛——过于简单且脱离实际。真正的软件开发更像是准备一桌满汉全席,需要统筹规划、协调配合、持续数小时甚至数天的精细操作。

为了真正检验这些AI助手在复杂工程任务中的表现,研究团队构建了一个名为"LongCLI-Bench"的全新评估基准。这个基准就像是为AI助手设计的"软件工程师资格考试",包含20个精心筛选的复杂任务,每个任务都需要在命令行环境中完成多步骤的编程工作。这些任务并非凭空捏造,而是从超过1000个真实的计算机科学课程作业和实际工作流程中精挑细选出来的。

这些任务覆盖了软件开发的四个核心场景。首先是"从零开始"类型,就像让你在空地上盖一栋房子,需要AI助手完全凭借需求文档构建一个可运行的软件项目。其次是"功能扩展"类型,相当于在现有房屋基础上加盖二楼,要求AI助手为已有代码库添加新功能。第三是"bug修复"类型,如同房屋漏水需要找到根源并修补,AI助手必须诊断并解决代码中的复杂问题。最后是"代码重构"类型,类似于室内装修改造,在不影响原有功能的前提下优化代码结构。

研究团队特别创新性地采用了"双重考验"的评估方式。传统的测试就像只检查新装修的房间是否漂亮,而忽略了装修过程是否破坏了房屋的水电系统。这里的双重考验包括"从失败到成功"测试和"从成功到成功"测试。前者验证AI助手是否真正完成了新需求,后者则检查在实现新功能的过程中是否破坏了原有系统的正常运转。

更进一步,研究团队还引入了"步骤级评分"机制。这就像是烹饪比赛中不仅看最终菜品,还要观察厨师的每一个操作步骤。通过这种细粒度的评估,研究人员能够精确定位AI助手在漫长工作流程中究竟在哪个环节出了问题——是一开始的规划就有误,还是中途某个具体实现环节卡住了。

当前最优秀的AI编程助手包括商业产品Codex和Claude Code,以及基于开源框架OpenHands的各种模型。Codex使用GPT系列模型作为核心,能够通过专门设计的工具与代码库交互。Claude Code则采用Anthropic公司的Claude系列模型,同样具备强大的代码理解和生成能力。OpenHands作为开源方案,为研究社区提供了可定制的代理框架,支持多种开源大语言模型。

实验结果令人意外且发人深省。即使是表现最佳的Claude-Opus-4.6模型,其整体通过率也仅有16.7%,这意味着十个复杂任务中只能完整完成不到两个。更令人担忧的是,从步骤级分析来看,大多数AI助手在任务完成度达到30%之前就已经"罢工"了。这就像是马拉松选手刚跑出几公里就体力不支,根本无法应对长距离的挑战。

深入分析失败原因,研究团队发现了几个关键问题。首先是"重复陷阱"现象——AI助手遇到错误时往往会陷入机械式的重复尝试,就像一个人反复用同一把错误的钥匙开门,却从不思考是否应该换把钥匙或者检查门锁是否损坏。其次是"环境理解偏差",AI助手经常将环境配置问题误判为代码逻辑错误,导致修复方向完全错误。最后是"长期记忆缺失",在漫长的开发过程中,AI助手会逐渐"忘记"早期的约束条件或目标,导致后期工作与前期不一致。

令人欣慰的是,研究团队也探索了改善AI助手表现的方法。自我纠错机制能够带来一定程度的改善——当AI助手获得测试反馈后,它可以重新审视自己的工作并进行调整。然而,更显著的提升来自人机协作模式。

研究团队设计了两种人机协作方案。第一种是"静态计划注入",相当于在AI助手开始工作前给它一份详细的施工图纸,明确告诉它应该按什么顺序完成哪些子任务。第二种是"动态交互指导",允许AI助手在遇到困难时主动寻求人类专家的指导建议。实验结果显示,这两种协作方式都能显著提升任务完成率,其中组合使用时效果最佳。

这种协作模式的成功揭示了一个重要启示:与其一味追求AI的完全自主性,不如专注于构建高效的人机协作系统。就像现代飞行中,虽然自动驾驶系统已经非常先进,但在复杂情况下仍需要飞行员的判断和干预。AI编程助手的未来发展方向可能也是如此——在大部分常规工作中实现自动化,在关键决策点引入人类智慧。

从技术角度来看,这项研究还暴露了当前AI系统在处理长期依赖关系和维持上下文一致性方面的根本性挑战。软件开发本质上是一个需要全局思维和局部执行相结合的复杂过程,既要有宏观的架构规划能力,又要有微观的代码实现技巧。目前的AI模型虽然在单点能力上已经相当出色,但在协调这种多层次、长时间跨度的复杂任务时仍力不从心。

研究团队的工作也为AI编程工具的实际应用提供了重要参考。对于软件开发团队而言,这意味着当前的AI编程助手更适合承担辅助角色——帮助完成代码片段的生成、进行初步的bug检测、提供编程建议等,而不应期望它们能够独立完成大型项目的开发。合理的预期管理和恰当的任务分配将是发挥AI编程工具价值的关键。

展望未来,这项研究为AI编程能力的进一步发展指明了方向。除了继续提升模型的代码理解和生成能力外,增强长期记忆管理、改善上下文维持机制、优化错误恢复策略等都是亟待突破的技术难点。同时,开发更智能的人机交互接口,让AI助手能够更好地理解人类意图并适时寻求帮助,也将是一个重要的研究方向。

说到底,这项研究就像是给AI编程助手做了一次"全面体检",结果发现这些看似强大的工具在面对真正复杂的工程挑战时还存在不少"体能不足"的问题。但这并不意味着我们应该对AI编程的前景感到悲观。相反,正是通过这样严谨的评估和分析,我们才能更清楚地认识到当前技术的边界,找到最有效的改进路径。

就像任何新兴技术一样,AI编程助手的发展也需要经历从"概念验证"到"实用化"再到"成熟应用"的过程。目前我们还处在这个发展曲线的早期阶段,虽然已经看到了令人兴奋的可能性,但要真正实现"AI程序员"的愿景,还需要在技术突破和应用模式创新两个维度继续努力。

对于普通软件开发者而言,这项研究传达的信息是:AI编程工具已经可以成为有价值的工作伙伴,但还不能完全替代人类的判断和创造力。学会与AI协作,善用AI的优势来提升自己的工作效率,同时在AI力有不逮的地方发挥人类的独特价值,这可能是当前最明智的策略。毕竟,最好的团队往往不是由完全相同的成员组成,而是由具有互补技能的个体构成的。

Q&A

Q1:LongCLI-Bench是什么?

A:LongCLI-Bench是一个专门评估AI编程助手处理复杂长期任务能力的测试基准,包含20个从1000多个真实编程任务中精选出来的复杂项目,涵盖从零开始开发、功能扩展、bug修复和代码重构四种场景。

Q2:为什么最先进的AI编程助手通过率只有不到20%?

A:主要原因包括AI助手容易陷入重复错误的循环、无法准确理解环境配置问题、在长期任务中会逐渐忘记早期的约束条件,以及缺乏有效的全局规划和局部执行协调能力。

Q3:人机协作如何提升AI编程助手的表现?

A:研究发现通过给AI助手提供详细计划指导和允许它主动寻求人类专家建议,可以将任务完成率从16.7%提升到61.7%,这说明AI助手在人类指导下能够发挥更大价值。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江西安源路桥集团有限公司党支部书记、董事长王东被查

江西安源路桥集团有限公司党支部书记、董事长王东被查

潇湘晨报
2026-03-25 16:16:44
上将被查、院士被除名,这背后释放的信号,比你想的更不简单

上将被查、院士被除名,这背后释放的信号,比你想的更不简单

李昕言温度空间
2026-03-19 22:56:18
挂断中国通话后,伊朗向全球发出“照会”,沙特王储紧急发声解释

挂断中国通话后,伊朗向全球发出“照会”,沙特王储紧急发声解释

宋垀搞笑配音
2026-03-26 23:56:50
快扔掉!戴一天,辐射量相当于拍117次胸片

快扔掉!戴一天,辐射量相当于拍117次胸片

FM93浙江交通之声
2025-10-28 00:01:43
日媒:日本高中生起诉市政府和日本政府,指控市政府擅自将个人信息提交给防卫省用于招募

日媒:日本高中生起诉市政府和日本政府,指控市政府擅自将个人信息提交给防卫省用于招募

环球网资讯
2026-03-26 20:44:05
“老人味”的祸首被揪出!医生提醒:55岁后要少碰,老了或也没味

“老人味”的祸首被揪出!医生提醒:55岁后要少碰,老了或也没味

今日养生之道
2026-03-23 11:46:39
很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

岐黄传人孙大夫
2026-03-26 20:45:03
蓝白合作捍卫陆配李贞秀,立法机构上演59票对抗,黄捷吴思瑶现场失控

蓝白合作捍卫陆配李贞秀,立法机构上演59票对抗,黄捷吴思瑶现场失控

娱乐小可爱蛙
2026-03-27 00:05:03
A股:市场要开始准备了!明天(3月27日)的市场会这样走

A股:市场要开始准备了!明天(3月27日)的市场会这样走

风风顺
2026-03-27 00:00:04
张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

极目新闻
2026-03-26 20:56:20
上映4天,仅3个观众,总票房104元,2026年最惨电影诞生

上映4天,仅3个观众,总票房104元,2026年最惨电影诞生

错过美好
2026-03-24 23:41:07
原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

证券时报e公司
2026-03-26 22:23:23
15战14胜,加时掀翻东部第一!新鹰王27+8+12证明贱卖特雷杨有理

15战14胜,加时掀翻东部第一!新鹰王27+8+12证明贱卖特雷杨有理

锅子篮球
2026-03-26 11:25:55
清纯得不像动作片女一号!

清纯得不像动作片女一号!

贵圈真乱
2026-03-26 11:33:33
A股:紧急提醒3亿股民股民,主力已摊牌,周五,将迎来狂风暴雨

A股:紧急提醒3亿股民股民,主力已摊牌,周五,将迎来狂风暴雨

云鹏叙事
2026-03-27 00:00:07
山姆曲奇礼盒紧急下架!监管部门:已立案

山姆曲奇礼盒紧急下架!监管部门:已立案

中国品牌
2026-03-26 19:00:21
张少康辞去广东省人民政府副省长职务

张少康辞去广东省人民政府副省长职务

新快报新闻
2026-03-26 11:50:03
只剩6天!医保全国统一,41-61岁抓紧办这几件事,否则就晚了!

只剩6天!医保全国统一,41-61岁抓紧办这几件事,否则就晚了!

另子维爱读史
2026-03-25 22:09:07
101枚导弹砸向美国航母:伊朗打出了开战以来最强一拳

101枚导弹砸向美国航母:伊朗打出了开战以来最强一拳

闻识
2026-03-27 01:19:31
太解气了,中美武器交锋,巴基斯坦拿着中国武器反击立威,厉害了

太解气了,中美武器交锋,巴基斯坦拿着中国武器反击立威,厉害了

凡人侃史
2026-03-27 00:10:40
2026-03-27 02:48:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7765文章数 556关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
健康
本地
公开课
军事航空

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

转头就晕的耳石症,能开车上班吗?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版