网易首页 > 网易号 > 正文 申请入驻

南京大学与伦敦大学联合推出评估编程助手"侦察能力"的新基准

0
分享至


这项由南京大学和伦敦大学学院联合开展的研究发表于2026年,论文编号为arXiv:2602.05892v2,为理解和评估大型语言模型在编程任务中的表现提供了全新视角。

当今时代,智能编程助手已经逐渐走入我们的工作和学习中。这些基于大型语言模型的编程工具就像是经验丰富的编程导师,能够帮助开发者解决复杂的软件问题。然而,有一个关键问题一直困扰着研究人员和开发者:这些智能助手到底是如何找到解决问题所需的关键信息的?它们是真的理解了代码之间的逻辑关系,还是仅仅凭借运气和大量试验找到了答案?

就像一个侦探破案需要收集线索一样,编程助手在解决编程问题时也需要从庞大的代码库中找到关键的代码片段。以往的评估方法就像只关注侦探最终是否破了案,而忽略了侦探的推理过程是否正确。如果一个侦探仅仅是运气好碰上了真凶,而不是通过逻辑推理找到线索,那么这种成功就是不可靠的。

研究团队发现,现有的编程助手评估基准存在一个重大盲区。这些基准主要关注最终的编程任务成功率,比如程序是否能通过测试,但完全忽略了助手在解决问题过程中的"侦察能力"。这种评估方式就像评价一个医生只看最终治愈率,而不关心医生的诊断过程是否科学合理。

为了填补这个空白,研究团队开发了一个名为CONTEXTBENCH的全新评估基准。这个基准就像为编程助手设计了一套完整的"侦察能力测试",专门评估它们在解决编程问题时寻找和使用关键信息的能力。

一、解决什么问题:为编程助手的"侦察过程"提供透明度

当前的编程助手评估就像黑盒测试。研究人员给助手一个编程问题,然后看它能否提交一个正确的解决方案,但完全不知道助手是如何得出这个答案的。这种情况类似于考试时只公布最终成绩,而不展示学生的解题过程。即使两个学生都得了满分,一个可能是通过严密的逻辑推理得出答案,另一个可能只是瞎蒙碰运气。

CONTEXTBENCH要解决的核心问题是:编程助手在解决软件工程任务时,是否真的找到并使用了正确的代码上下文信息?这里的"上下文"可以理解为解决问题所必需的相关代码片段,就像医生诊断疾病时需要的相关症状和病史信息。

研究团队通过深入分析发现,许多看似成功的编程助手实际上存在严重的"侦察盲区"。有些助手可能通过反复试验和错误修正最终得到了正确答案,但它们并没有真正理解问题的本质,也没有找到最关键的代码线索。这种成功是脆弱的,在面对新的类似问题时很容易失败。

更令人担忧的是,一些助手可能过度拟合了特定的测试用例,就像学生只会做练习册上的题目,但遇到稍有变化的新题目就束手无策。这种情况在实际软件开发中是非常危险的,因为真实世界的编程问题往往比基准测试更加复杂和多变。

二、创新方法:构建"专家标注的推理地图"

为了准确评估编程助手的"侦察能力",研究团队采用了一种类似于制作"专家标注推理地图"的方法。他们从四个知名的编程基准中精心挑选了1136个真实的软件问题,这些问题就像是从实际案例中提取的复杂谜题。

整个构建过程分为三个核心阶段。首先是"去重净化"阶段。研究团队发现,许多现有基准中存在重复或近似重复的问题,就像题库中有很多换汤不换药的题目。他们使用了规则匹配和语义相似度检测两种方法,将最初的4497个任务精简到3981个,然后进一步筛选到3100个真正独特的任务。这个过程就像图书管理员整理藏书,确保每本书都有其独特价值。

接下来是"难度筛选"阶段。研究团队不是随机选择问题,而是专门挑选那些既有挑战性又能真正测试编程助手能力的问题。他们使用了三个筛选标准:助手解决能力、编辑范围和编辑分散度。助手解决能力指标关注那些现有助手很少能解决或完全无法解决的问题,确保基准具有足够的挑战性。编辑范围考察解决问题需要修改多少个文件,优先选择需要大范围修改的复杂问题。编辑分散度则关注修改是否分布在代码库的不同模块中,这样的问题需要助手具备更强的全局理解能力。

最核心的是"专家标注"阶段。研究团队邀请了六位经验丰富的软件工程专家,他们都有超过三年的大型代码库开发经验。这些专家就像经验丰富的侦探,能够准确识别解决每个编程问题所需的关键线索。专家们会仔细分析每个问题的标准答案,然后逆向追踪,标注出解决这个问题绝对必需的代码片段。

为了确保标注质量,研究团队设计了一套严格的验证流程。他们会让最先进的大型语言模型仅基于专家标注的代码上下文来尝试解决问题。如果模型能够生成通过官方测试的解决方案,说明这些标注确实包含了充足的信息。如果不能,则会进行多轮改进和补充。这个过程类似于反复验证地图的准确性,确保按图索骥确实能找到目标。

研究团队还引入了"紧凑性检查"机制。不同的专家会相互审查标注结果,移除冗余或不必要的代码片段,确保每个标注都是精确和必要的。这就像编辑反复打磨文章,删除所有多余的词句,保留最精练的表达。

三、全面评估:从"破案结果"到"推理过程"的革命性转变

CONTEXTBENCH的核心创新在于它不仅关注编程助手是否最终解决了问题,更重要的是深入分析助手的整个"侦察推理"过程。这种评估方法就像将侦探的破案过程完全透明化,记录下侦探如何收集线索、如何分析证据、如何得出结论的每一个步骤。

为了实现这种透明化评估,研究团队开发了一套精巧的"轨迹追踪"系统。当编程助手开始解决问题时,这个系统会像影子一样跟随,记录助手查看的每一个文件、阅读的每一段代码、进行的每一次搜索。这些记录被整理成结构化的"上下文快照",就像连环画一样展现助手的思维过程。

评估系统使用了三个不同的精度级别来分析助手的表现。文件级别评估关注助手是否找到了正确的文件,就像侦探是否去了正确的案发现场。代码块级别评估更加细致,检查助手是否找到了关键的函数或类定义,类似于侦探是否找到了关键的证物。行级别评估最为精确,分析助手是否准确定位到了具体需要修改的代码行,如同侦探是否找到了最关键的线索。

研究团队还设计了一系列动态指标来评估助手在整个过程中的行为模式。效率指标衡量助手多快能找到关键信息,就像评估侦探破案的速度。冗余度指标检查助手是否重复查看同样的内容,类似于分析侦探是否在同一地点反复搜查而浪费时间。使用率指标则关注助手最终是否真正利用了它发现的关键信息,这相当于检查侦探是否将找到的线索真正用于破案。

特别值得一提的是"证据丢失"指标。研究团队发现,许多助手在探索过程中确实找到了关键的代码片段,但在最终生成解决方案时却没有使用这些信息。这种现象就像侦探收集了正确的证据,但在法庭上却忘记了展示这些关键证据。这个发现揭示了当前编程助手在信息整合和利用方面的重要缺陷。

四、令人意外的实验结果:复杂不等于更好

研究团队使用CONTEXTBENCH对四种最先进的大型语言模型和五种不同的编程助手进行了全面测试,结果令人大吃一惊。这些发现就像医学研究中发现某些昂贵的药物并不比简单的治疗方法更有效。

最令人意外的发现是,那些设计复杂、功能丰富的编程助手并没有在"侦察能力"上表现出明显优势。相反,一个叫做mini-SWE-Agent的简单基准工具在多项指标上的表现竟然不输给那些复杂的系统。这种情况类似于发现一把普通的螺丝刀有时比电动多功能工具更有效。

研究人员分析了几个具体案例来理解这种现象。在一个典型案例中,复杂的Prometheus系统虽然使用了图谱知识库等先进技术,但在处理一个会话头部设置问题时,却遗漏了关键的构造函数语义信息。它成功找到了CaseInsensitiveDict类的操作方法,但没有获取初始化方法的信息,导致生成的解决方案在API使用上出现错误。相比之下,简单的基准工具虽然技术含量不高,但通过基本的文件搜索和代码检查,反而能够获得更完整的上下文信息。

另一个有趣的发现是,所有被测试的大型语言模型都表现出"贪多嚼不烂"的倾向。它们倾向于收集大量可能相关的代码信息,但这种广撒网的策略往往带来更多噪声而不是有用信息。就像一个收集狂总是觉得所有东西都可能有用,最后却在成堆的杂物中找不到真正需要的东西。

具体数据显示,在块级别的F1分数(综合考虑准确性和完整性的指标)上,最先进的模型得分都低于0.45,而行级别的F1分数更是低于0.35。这意味着即使是最优秀的编程助手,在精确定位和使用关键代码信息方面的能力也相当有限。

研究团队还发现了不同模型在策略选择上的有趣差异。GPT-5倾向于进行较少轮次的搜索(平均5.87轮),但每次搜索的范围很大(平均119.29行代码)。而Devstral-2则采用了完全相反的策略,进行更多轮次的搜索(平均22.16轮),但每次只查看很少的代码(平均11.98行)。令人惊讶的是,这两种极端策略的效果都不如采用中庸策略的Claude Sonnet 4.5。

五、深层分析:编程助手的"认知盲区"

通过对大量失败案例的深入分析,研究团队发现了当前编程助手存在的几个关键"认知盲区"。这些发现就像心理学家分析人类认知偏误一样,揭示了人工智能系统在信息处理方面的系统性缺陷。

第一个重要的认知盲区是"关键词依赖症"。许多助手过度依赖问题描述中的关键词来搜索相关代码,就像一个新手侦探只会根据证人描述的表面特征寻找嫌疑人。在一个Django框架的案例中,助手看到问题提到"数据库表冲突",就专注搜索与模型定义相关的文件,但实际的错误源头却在验证框架中。这种表面化的搜索策略导致助手从一开始就走向了错误的方向。

第二个认知盲区是"模块间盲视"。当问题涉及多个相关模块时,助手往往无法进行有效的横向探索。就像一个只会专注于自己专业领域的专家,无法看到跨领域的关联。在一个时区处理的案例中,助手在MySQL模块中找到了相关代码后,就停止了进一步探索,完全忽略了SQLite和Oracle模块中的对应实现。这种"隧道视野"导致解决方案的不完整性。

第三个认知盲区是"语义理解缺失"。助手虽然能够读取代码文本,但往往无法理解代码之间的深层语义关系。在前面提到的CaseInsensitiveDict案例中,助手找到了类的操作方法,但没有理解构造函数的API契约要求。这就像一个人能够读出食谱的每个步骤,但不理解各步骤之间的逻辑关系。

更令人担忧的是"信息整合障碍"。研究发现,平均有17.9%到43.5%的正确信息在助手的探索过程中被找到,但在最终解决方案中却没有被使用。这种现象类似于学生在考试时记住了正确答案,但在写答卷时却写了错误内容。这表明当前的编程助手在信息保留和应用方面存在严重缺陷。

六、跨语言表现:普遍性挑战

研究团队还分析了编程助手在8种不同编程语言上的表现,发现了一些有趣的模式。整体而言,助手在Python上的表现相对较好,这可能与大多数训练数据以Python为主有关。但即使是表现最好的语言,助手的准确性也远未达到实用标准。

在类型化语言(如Java、TypeScript)上,助手的表现略好于动态语言(如JavaScript),这可能是因为类型信息提供了额外的上下文线索。然而,这种优势并不明显,说明当前的助手还无法有效利用语言特性来改善理解能力。

特别值得注意的是,在一些相对较新或专门化的语言(如Rust、Go)上,助手的表现明显下降。这种现象类似于一个翻译在面对方言时的困难,反映了训练数据覆盖范围的局限性。

七、对未来的启示:从"盲目试验"走向"理性推理"

CONTEXTBENCH的研究结果为改进编程助手指出了明确方向。当前的"复杂化竞赛"可能是走错了路,真正需要的是在理解和推理能力上的根本性提升。

研究团队建议,未来的编程助手开发应该更加注重"过程监督"而非"结果监督"。就像教育改革强调培养学生的思维过程而不仅仅是考试成绩,编程助手的训练也需要在推理过程上投入更多关注。

具体而言,助手需要学会建立代码之间的语义关联图,理解不同模块和函数之间的依赖关系,而不是仅仅进行文本匹配。它们还需要发展出更好的信息整合能力,能够将探索过程中发现的各个线索有机组合成完整的解决方案。

研究还表明,平衡性策略往往优于极端策略。那些采用适中搜索频率和范围的助手通常能够以更低的成本获得更好的结果。这种发现类似于心理学中的"满意化"原则,即寻求足够好的解决方案往往比追求完美更加有效。

八、现实意义:智能编程工具的可靠性警示

CONTEXTBENCH的发现对当前蓬勃发展的智能编程工具产业具有重要的警示意义。许多开发者已经开始在实际工作中依赖这些工具,但研究结果表明,这种信任可能是过早和危险的。

当前的编程助手更像是"幸运的猜测者"而非"可靠的顾问"。它们可能在某些情况下表现出色,但这种成功往往基于偶然因素而非系统性理解。在关键任务或复杂项目中过度依赖这些工具可能带来不可预期的风险。

然而,这并不意味着智能编程工具毫无价值。相反,准确理解它们的能力边界有助于更好地利用这些工具。开发者可以将它们视为辅助探索工具,用于快速浏览大型代码库或生成初步的解决思路,但不应完全依赖它们的判断。

研究还提醒我们,评估人工智能系统不能仅看表面表现。就像评估一个医生不能只看治愈率,还要看诊断过程是否科学,评估智能编程工具也需要深入分析其推理过程的合理性和可靠性。

说到底,这项研究为我们提供了一面"透视镜",让我们能够看清智能编程助手的真实工作状态。虽然发现了许多不足,但这种透明度本身就是巨大的进步。只有准确了解当前技术的限制,我们才能制定更合理的发展策略,最终创造出真正可靠和有用的智能编程工具。

归根结底,CONTEXTBENCH不仅仅是一个评估工具,更是一个推动整个领域向更加理性和科学方向发展的催化剂。它提醒我们,在人工智能快速发展的时代,深入理解和严格评估比盲目追求表面性能更加重要。有兴趣深入了解这项研究的读者可以通过arXiv:2602.05892v2查询完整论文。

Q&A

Q1:CONTEXTBENCH基准测试主要评估编程助手的什么能力?

A:CONTEXTBENCH专门评估编程助手在解决编程问题时寻找和使用关键代码信息的能力,类似于测试侦探收集线索和推理破案的过程。与传统只关注最终结果的评估不同,它深入分析助手如何从庞大代码库中定位必要的代码片段,以及是否真正理解和利用了这些关键信息。

Q2:为什么复杂的编程助手表现反而不如简单工具?

A:研究发现复杂系统往往存在"过度工程化"问题。虽然这些系统功能丰富,但在实际的代码上下文检索任务中,简单的基础搜索和检查方法反而更有效。复杂系统可能引入额外的噪声和干扰,而简单工具通过直接的文件搜索和代码检查,能获得更完整准确的上下文信息。这类似于有时普通螺丝刀比多功能电动工具更实用。

Q3:当前编程助手存在哪些主要缺陷?

A:编程助手主要存在三个认知盲区:过度依赖关键词搜索而缺乏深层理解、无法进行有效的跨模块探索、以及严重的信息整合障碍。最令人担忧的是,助手经常在探索过程中找到正确信息,但在最终生成解决方案时却没有使用这些关键信息,平均有17.9%到43.5%的正确信息被浪费。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“不给人算命,只给国算命”的灵媒阮氏虹说2026:红黄冲天、蓝白坠渊,三光三煞,火马绝运

“不给人算命,只给国算命”的灵媒阮氏虹说2026:红黄冲天、蓝白坠渊,三光三煞,火马绝运

神奇故事
2026-02-13 23:31:12
笑不活了!吉林一狗狗拿女主手机下单5000+买灯笼,家里整成夜市

笑不活了!吉林一狗狗拿女主手机下单5000+买灯笼,家里整成夜市

火山詩话
2026-02-14 11:15:54
女星周秀娜回应香港富豪李家诚控告:深感委屈,将委托律师跟进

女星周秀娜回应香港富豪李家诚控告:深感委屈,将委托律师跟进

封面新闻
2026-02-14 02:17:08
四渡赤水最惊人的真相:他瞒过了所有人,甚至连他自己都骗过了

四渡赤水最惊人的真相:他瞒过了所有人,甚至连他自己都骗过了

文史明鉴
2026-02-13 13:22:10
什么是干休所,要达到什么军衔的军官,才能进干休所?

什么是干休所,要达到什么军衔的军官,才能进干休所?

触摸史迹
2025-12-21 19:31:28
美团被AI扔了一个二向箔

美团被AI扔了一个二向箔

商业数据派
2026-02-13 23:22:19
喜讯!中超球队逼平欧冠劲旅,新赛季手握冲击冠军优势,球迷沸腾

喜讯!中超球队逼平欧冠劲旅,新赛季手握冲击冠军优势,球迷沸腾

罗掌柜体育
2026-02-14 09:37:42
为了用“星链”,俄方做法突破底线

为了用“星链”,俄方做法突破底线

名人苟或
2026-02-14 17:11:48
日本悍然扣押中国渔船,赢下大选的高市早苗,开始对中方疯狂试探

日本悍然扣押中国渔船,赢下大选的高市早苗,开始对中方疯狂试探

书纪文谭
2026-02-14 19:10:50
委内瑞拉石油收入超10亿美元 资金将存入美财政部新开账户

委内瑞拉石油收入超10亿美元 资金将存入美财政部新开账户

财联社
2026-02-14 16:54:35
他都退休了,因战略眼光出众,又被军委召回担任要职,获上将军衔

他都退休了,因战略眼光出众,又被军委召回担任要职,获上将军衔

云霄纪史观
2025-12-23 01:40:09
王石田朴珺的深圳别墅:东西再多也不显乱,阳光房养树太气派!

王石田朴珺的深圳别墅:东西再多也不显乱,阳光房养树太气派!

家物JIAWU
2026-02-11 23:58:13
大家断崖式衰老都是在多少岁? 网友的回答很扎心了,满是无奈

大家断崖式衰老都是在多少岁? 网友的回答很扎心了,满是无奈

另子维爱读史
2025-12-26 16:31:13
你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

带你感受人间冷暖
2026-01-29 00:10:05
华国锋孙女华真,目前担任苏富比亚洲区副主席,此前系李云迪妻子

华国锋孙女华真,目前担任苏富比亚洲区副主席,此前系李云迪妻子

老杉说历史
2026-02-03 00:39:20
外交官已撤离,中方提的要求,立陶宛准备照单全收,就等访华面谈

外交官已撤离,中方提的要求,立陶宛准备照单全收,就等访华面谈

少年仍需努力
2026-02-14 18:32:06
美媒:杨瀚森把克林根“秀”进今日五佳球,中国中锋全能进攻成热议

美媒:杨瀚森把克林根“秀”进今日五佳球,中国中锋全能进攻成热议

kio鱼
2026-02-14 12:31:29
科学家认为:外星人以前也许来过地球,但当时还没有人类

科学家认为:外星人以前也许来过地球,但当时还没有人类

观察宇宙
2026-01-19 18:02:08
为何每年都要慰问中央老同志?名单的背后,释放了哪些重要信号?

为何每年都要慰问中央老同志?名单的背后,释放了哪些重要信号?

李昕言温度空间
2026-02-13 23:23:44
最孤独婚车后续:新郎新娘颜值高,别克正式回应大格局送上祝福

最孤独婚车后续:新郎新娘颜值高,别克正式回应大格局送上祝福

林轻吟
2026-02-12 22:13:12
2026-02-14 19:48:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1848文章数 161关注度
往期回顾 全部

科技要闻

字节跳动官宣豆包大模型今日进入2.0阶段

头条要闻

俄中将遇袭细节:身中3枪 将袭击者的枪举到头顶高度

头条要闻

俄中将遇袭细节:身中3枪 将袭击者的枪举到头顶高度

体育要闻

金博洋:天才少年的奥运终章

娱乐要闻

吴克群变“吴克穷”助农,国台办点赞

财经要闻

春节抢黄金,谁赚到钱了?

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

健康
教育
游戏
本地
手机

转头就晕的耳石症,能开车上班吗?

教育要闻

“学习学傻了吧?”女孩晒满墙奖状,挑衅有钱人被嘲:头脑不清醒

Game Freak重申《轮回之兽》内部团队规模很小

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

手机要闻

iPhone 18 Pro系列前瞻:灵动岛缩小、可变光圈加持,2nm芯片性能跃升

无障碍浏览 进入关怀版