网易首页 > 网易号 > 正文 申请入驻

皇后大学揭秘:AI机器人与人类程序员的代码审查大作战

0
分享至


当你写完一段代码,准备提交到项目中时,通常会有同事帮你检查一遍——这个过程叫做代码审查,就像文章发表前的编辑校对一样重要。不过现在情况有了变化:越来越多的AI机器人也开始参与代码审查工作,它们能自动发现bug、提出改进建议,甚至与人类开发者展开讨论。这引发了一个有趣的问题:AI审查员和人类审查员到底谁更厉害?它们的合作效果如何?

加拿大皇后大学的研究团队最近完成了一项大规模研究,分析了278,790次代码审查对话,涵盖300个开源GitHub项目,时间跨度从2022年到2025年。这项研究发表于2026年3月的arXiv预印本平台,论文编号为arXiv:2603.15911v1。研究团队深入探讨了AI机器人审查员与人类审查员在反馈质量、互动模式和建议采纳率方面的差异,为我们揭示了人机协作审查的真实面貌。

研究发现,AI机器人的表现确实令人印象深刻,但也暴露出明显的局限性。AI机器人生成的评论比人类长得多,平均每行代码产生29.6个词汇,而人类只需要4.1个词汇。更有趣的是,AI机器人几乎完全专注于代码改进和错误检测,超过95%的评论都集中在这两个方面。相比之下,人类审查员的反馈更加多样化,不仅关注技术问题,还会进行理解确认、知识传授和测试建议。

在实际应用效果方面,研究揭示了一个令人意外的现象:虽然AI机器人提出的代码建议数量是人类的三倍多(88,011个对比25,673个),但它们的建议被采纳率却显著偏低,只有16.6%,而人类审查员的建议采纳率高达56.5%。更值得注意的是,当AI机器人的建议被采纳后,往往会增加代码的复杂性和体积,这与良好的编程实践相矛盾。

一、AI机器人审查员:话多但精准度有限的助手

当我们把AI机器人比作一位勤奋但经验不足的新员工时,就能更好地理解它们的工作特点。这位"新员工"非常努力,总是写很长很详细的报告,但往往抓不住重点,有时还会犯一些基础错误。

研究团队通过分析发现,AI机器人审查员有着鲜明的工作风格特征。它们就像那种做事特别认真、报告写得特别详细的同事,每次都要把所有细节说得清清楚楚。当人类审查员只需要简单指出"这里有个小问题"时,AI机器人会写一大段话,不仅指出问题,还要解释原因、引用相关规则、列出需要修改的文件清单,甚至给出严重性等级。

这种差异就像两种不同的沟通方式:人类审查员更像经验丰富的老师,能够一针见血地指出核心问题;而AI机器人更像刚入职的实习生,什么都想说,生怕遗漏重要信息。虽然详细程度高,但这种冗长的表达方式往往会增加阅读负担,让开发者需要花更多时间理解建议的核心内容。

更重要的是,AI机器人的关注点相当有限。研究显示,它们几乎把所有注意力都集中在两个方面:发现代码错误和提出改进建议。这就像一个只会查语法错误和标点符号的校对软件,虽然在这些方面很专业,但完全不会考虑文章的逻辑结构、读者感受或者写作目的。

相比之下,人类审查员的反馈就丰富多了。除了技术问题,他们还会问"你为什么要这样实现?"、"这个设计考虑了哪些场景?"或者"我建议你看看项目中的其他类似实现"。这些问题反映了人类审查员不仅关注代码本身,还关注背后的设计思路、团队知识共享和项目一致性。

研究还发现了一个有趣现象:当涉及理解和澄清的讨论时,人类主导的对话往往会产生更多轮次的交流。平均来说,理解类反馈会引发2.1到2.3轮讨论,而AI机器人的反馈基本上都是"一次性消费",很少引发深入对话。这就像AI机器人更适合做标准化检查工作,而人类更擅长进行深度交流和知识传递。

二、人机对话模式:谁说话、何时说、如何结束

代码审查中的人机互动就像一场精心编排的对话剧,每个角色都有自己的台词和出场时机。研究团队通过分析这些对话模式,发现了一些令人意外的规律。

当人类审查员遇到AI生成的代码时,对话变得格外"活跃"。数据显示,人类审查员在审查AI生成代码时的交流轮次比审查人类代码时多出11.8%。这种现象很好理解:当你读到一段看起来正确但又感觉哪里不对的代码时,自然会产生更多疑问。人类审查员经常需要多问几句"你为什么要这样写?"、"这个逻辑的依据是什么?"来确保自己真正理解了AI的想法。

这种情况就像你在阅读一本翻译小说,虽然语法和用词都没问题,但总感觉表达方式有些别扭,于是不得不反复琢磨作者的真实意图。AI生成的代码也会给人类审查员带来类似的困惑,需要更多轮的确认和澄清。

然而,当AI机器人扮演审查员角色时,对话模式就完全不同了。研究发现,85%到87%的AI发起的审查对话都在第一轮就结束了,没有任何后续交流。这就像AI机器人说完自己要说的话后就沉默了,不管别人是否理解、同意或者有其他想法。

这种行为模式反映了AI机器人在互动交流方面的重大局限。真正的代码审查往往不是一锤子买卖,而是一个持续的协商过程。审查员提出建议后,代码作者可能会解释自己的想法,审查员再根据新信息调整建议,双方经过几轮交流最终达成共识。但AI机器人目前还不具备这种动态调整和深度互动的能力。

更值得注意的是,研究发现了一个关于对话结局的重要模式:当对话以AI机器人的回复作为结尾时,代码被拒绝的概率显著提高(7.1%到25.8%),而以人类回复结尾的对话被拒绝率要低得多(0.9%到7.8%)。这个现象揭示了人类在最终决策中的关键作用。

可以把这种情况比作团队开会讨论项目方案:AI机器人善于提出技术性建议和发现问题,但人类更擅长综合考虑各种因素、权衡利弊并做出最终决定。当一场讨论以人类的总结和确认结束时,通常意味着各方已经达成共识;而如果讨论在AI机器人发言后就戛然而止,往往说明还有未解决的分歧或疑虑。

这种对话模式的分析为我们提供了重要启示:在设计人机协作的代码审查系统时,不应该让AI机器人完全替代人类,而应该让它们发挥各自的优势,AI负责初步筛查和标准化检查,人类负责深度讨论和最终决策。

三、建议质量大比拼:数量多不等于质量高

在代码审查中提出改进建议就像给菜谱提意见:有的建议一针见血,让整道菜立刻变得更美味;有的建议听起来有道理,但实施起来要么行不通,要么让菜变得更复杂。研究团队对AI机器人和人类审查员提出的代码建议进行了详细对比,结果发现了一个令人深思的现象。

从数量上看,AI机器人确实是"建议制造机",它们总共提出了88,011个代码修改建议,是人类审查员25,673个建议的三倍多。但正如俗话说的"贵精不贵多",建议的质量比数量更重要。事实证明,AI机器人的建议虽然多,但被实际采纳的比例却令人失望。

具体来看,人类审查员的建议有56.5%被采纳并最终合并到代码库中,而AI机器人的采纳率只有16.6%。这种巨大差距就像两个购物顾问的表现对比:一个经验丰富的顾问推荐的商品你会经常购买,而另一个新手顾问虽然推荐了很多商品,但你真正买的寥寥无几。

为什么会出现这种差距?研究团队深入分析了那些未被采纳的AI建议,发现了几个主要原因。最常见的问题是AI机器人的建议本身就是错误的,占未采纳建议的28.7%。比如,AI机器人可能会指出某个命名空间缺失会导致编译失败,但实际上这个命名空间在项目的其他地方已经正确引入了,代码能够正常编译。这就像一个不熟悉厨房布局的人告诉厨师"盐找不到了",但实际上盐就在厨师触手可及的地方。

第二大问题是"方案不匹配",占24.0%。在这种情况下,AI机器人确实发现了真实存在的问题,但提出的解决方案与开发者的实际想法不符。这就像AI机器人发现了菜品味道偏淡的问题(分析正确),但建议加糖(方案不合适),而厨师实际想加的是盐。

除此之外,还有16.4%的建议被认为是"不必要的"——AI机器人提出的修改在技术上可行,但开发者认为当前的实现已经足够好,不需要改变。另有11.2%的情况是开发者声称已经修复了问题,但实际上并没有在代码库中看到相应的更改。

这些问题的根本原因在于AI机器人缺乏项目上下文的理解能力。它们就像一个从教科书学会做菜的厨师,知道很多通用规则和技巧,但不了解这家餐厅的特色、食客的偏好,以及现有菜谱的设计理念。

相比之下,人类审查员的建议质量为什么更高?研究发现,人类在提出建议时会综合考虑多个因素:项目的整体架构、团队的编码风格、已有的设计决策,以及实际的业务需求。他们不仅关注代码的技术正确性,还会考虑可维护性、可读性和与现有系统的一致性。

更重要的是,当AI机器人的建议被采纳后,代码的复杂度往往会显著增加。研究数据显示,采纳AI建议后,代码复杂度的增长幅度比采纳人类建议时高出0.085到0.106个单位,代码行数的增长也更明显。这就像AI机器人总是倾向于提供更"安全"但也更复杂的解决方案,而人类更善于找到简洁优雅的解决办法。

不过,这并不意味着AI机器人的建议毫无价值。在某些特定领域,比如发现明显的编码错误或提醒遵循标准编码规范,AI机器人的表现还是相当不错的。问题在于如何更好地利用AI的优势,同时弥补它的不足。

四、人机协作的艺术:各展所长还是互相制肘

代码审查中的人机协作就像一支交响乐队的演出:每个乐手都有自己的专长,关键是如何协调配合,让整体效果达到最佳。研究团队通过分析大量的协作案例,发现了一些有趣的协作模式和潜在的改进方向。

在最理想的情况下,AI机器人和人类审查员能够形成互补关系。AI机器人擅长做那些标准化、重复性的检查工作,比如发现语法错误、检查代码格式、识别常见的安全漏洞等。这些工作对人类来说往往比较枯燥,而且容易因为注意力分散而遗漏。相当于让AI机器人担任"质检员"的角色,负责基础的质量把关。

与此同时,人类审查员则专注于需要创造性思维和深度理解的工作:评估设计方案的合理性、判断代码是否符合业务需求、进行知识传授和团队沟通等。这些工作需要丰富的经验、对项目背景的深度理解,以及良好的沟通技巧,是AI机器人目前还无法胜任的。

然而,现实中的协作并非总是如此和谐。研究发现了一些值得关注的问题。比如,当AI机器人参与审查时,人类审查员往往需要花更多时间来理解和验证AI的建议,这在一定程度上增加了工作负担。就像团队中新加入了一个热情但经验不足的成员,老员工需要花额外的时间来指导和检查新成员的工作。

另一个问题是AI机器人的"固执"特性。当人类审查员对AI的建议提出质疑或不同意见时,AI机器人往往无法进行有效的回应和调整。这就像一个只会按照说明书操作的助手,当遇到说明书上没有的情况时,就不知道该怎么办了。

研究还发现,不同类型的代码审查任务适合不同的协作模式。对于新项目或者实验性代码,人类主导的审查模式效果更好,因为这类代码往往需要更多的创新思考和灵活判断。而对于成熟项目中的常规维护工作,AI机器人能够发挥更大的作用,帮助快速识别明显的问题。

最有趣的发现是关于"审查接力"的现象。在一些复杂的代码审查中,AI机器人首先进行初步扫描,标记出可能的问题点,然后人类审查员基于这些信息进行深入分析和最终决策。这种模式既利用了AI的效率优势,又保证了人类判断的质量。

不过,这种协作模式也存在一些挑战。比如,如何确保AI机器人提供的信息是准确的?如何避免人类过度依赖AI的判断?如何在效率和质量之间找到平衡?这些都是需要在实践中不断探索和优化的问题。

研究团队发现,最成功的协作案例往往有几个共同特点:首先,明确分工,让AI和人类各自承担适合自己的任务;其次,建立有效的信息传递机制,确保AI的发现能够准确传达给人类审查员;最后,保持人类的最终决策权,确保重要决定都经过人类的审慎考虑。

五、背后的深层含义:技术进步与人文关怀的平衡

这项研究揭示的问题远比表面上的技术对比更加深刻。在AI技术快速发展的今天,我们正面临着一个根本性的选择:是让机器完全取代人类的判断,还是找到人机协作的最佳平衡点?

从表面上看,AI机器人在代码审查中的表现似乎不如人类,但这个结论需要更加细致的分析。AI机器人的价值不仅在于它能做什么,更在于它能为人类节省多少时间和精力。即使AI的建议采纳率不高,但它能够帮助人类快速筛选和识别潜在问题,这本身就是一种价值。

比如,AI机器人提出的88,011个建议中,虽然只有16.6%被采纳,但这意味着有14,600多个有价值的改进被实现了。如果没有AI的帮助,人类审查员可能根本没有时间和精力发现这么多问题。从这个角度看,AI机器人更像是一个"放大镜",帮助人类看到原本可能忽略的细节。

研究还反映了一个重要的社会学现象:技术的采用不仅仅是一个技术问题,更是一个社会适应问题。人类对AI建议的低采纳率,部分原因可能是对新技术的天然警惕和不信任。随着AI技术的不断改进和人们经验的积累,这种情况可能会发生改变。

同时,研究也提醒我们注意AI技术的局限性。AI机器人缺乏对项目背景和团队文化的理解,这不是一个纯粹的技术问题,而是涉及到知识的传承、经验的积累和人际关系的建立。这些"软技能"目前仍然是人类的独特优势。

从长远来看,这项研究为AI技术的发展指明了方向。未来的AI系统需要更好地理解项目上下文,学会与人类进行有效的双向沟通,并且能够根据反馈动态调整自己的行为。这不仅需要技术上的突破,也需要在系统设计时更多地考虑人性化因素。

另一个值得思考的问题是评价标准。我们是否应该简单地用采纳率来衡量AI建议的价值?也许AI提出的那些未被采纳的建议中,有一些虽然当时被拒绝,但为开发者提供了新的思考角度,或者在后续的开发中被证明是有价值的。这种隐性价值很难量化,但同样重要。

最后,这项研究也让我们思考工作的未来形态。代码审查只是软件开发过程中的一个环节,但它反映的问题具有普遍性:在AI技术快速发展的时代,如何重新定义人类的角色和价值?如何设计出真正有利于人类发展的人机协作模式?这些问题的答案将影响到每一个人的职业生涯和生活方式。

说到底,这项研究告诉我们的不仅仅是AI和人类在代码审查中的表现差异,更是关于人机协作的深层思考。AI机器人虽然在某些方面表现出色,但人类的创造力、判断力和沟通能力仍然无可替代。最理想的未来可能不是AI取代人类,而是AI和人类各司其职,共同创造出比单独工作更优秀的结果。这种协作关系的建立需要技术进步,更需要我们重新思考工作的意义和人类的价值。

对于每一个在技术行业工作的人来说,这项研究提供了宝贵的参考。它提醒我们既要拥抱新技术带来的便利,也要保持对人类独特价值的信心。在AI机器人越来越智能的今天,人类最重要的能力可能不是与机器竞争,而是学会如何更好地与机器协作,让技术真正服务于人类的发展和幸福。

Q&A

Q1:AI机器人和人类审查员在代码审查中的主要区别是什么?

A:AI机器人的评论比人类长很多(每行代码平均29.6个词对比4.1个词),主要专注于代码改进和错误检测,占95%以上。而人类审查员提供更多样化的反馈,包括理解确认、知识传授、测试建议等,更注重深度交流和项目背景理解。

Q2:为什么AI机器人提出的建议采纳率这么低?

A:AI机器人建议的采纳率只有16.6%,远低于人类的56.5%。主要原因包括:28.7%的建议本身错误,24%的建议虽然发现了问题但解决方案不合适,16.4%被认为不必要,还有一些是项目上下文理解不足导致的误判。

Q3:人机协作的代码审查模式效果如何?

A:研究发现最佳模式是让AI负责初步筛查和标准化检查,人类负责深度分析和最终决策。当对话以人类回复结尾时,代码被拒绝率只有0.9%-7.8%,而以AI回复结尾时拒绝率高达7.1%-25.8%,说明人类在最终决策中起关键作用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
金昊,已被执行死刑

金昊,已被执行死刑

中国新闻周刊
2026-04-03 23:17:17
日媒:给中国50年也造不出日本发动机!马斯克:中国车企值得尊重

日媒:给中国50年也造不出日本发动机!马斯克:中国车企值得尊重

兴史兴谈
2026-04-04 00:46:18
鲍尔默再降20亿甩卖球队,联手詹姆斯100亿杀回西雅图

鲍尔默再降20亿甩卖球队,联手詹姆斯100亿杀回西雅图

林子说事
2026-04-04 19:28:01
演员文章女儿晒和爸爸合影,网友发现文章发量少,感觉头发快没了

演员文章女儿晒和爸爸合影,网友发现文章发量少,感觉头发快没了

韩小娱
2026-04-04 20:23:44
东部战区发海报!描绘统一后台湾省清明节场景

东部战区发海报!描绘统一后台湾省清明节场景

看看新闻Knews
2026-04-03 23:47:04
3000字长文为巴斯托尼鸣不平!因为两张红牌,巴斯托尼将被迫离队

3000字长文为巴斯托尼鸣不平!因为两张红牌,巴斯托尼将被迫离队

宝哥爱足球
2026-04-04 00:14:03
广东一女子被抢后开车撞向劫匪,致一人死亡,终审被判正当防卫无罪

广东一女子被抢后开车撞向劫匪,致一人死亡,终审被判正当防卫无罪

台州交通广播
2026-04-04 10:17:55
官宣!34岁奥斯卡因病正式退役 放弃6647万薪水 中超8年赚16亿

官宣!34岁奥斯卡因病正式退役 放弃6647万薪水 中超8年赚16亿

念洲
2026-04-04 21:52:19
19岁“失联”女孩露面,称因网恋自愿前往柬埔寨,绑架是演戏为向家里要钱!其父回应:确认是她

19岁“失联”女孩露面,称因网恋自愿前往柬埔寨,绑架是演戏为向家里要钱!其父回应:确认是她

大象新闻
2026-04-04 08:49:03
王楚钦4-3达科,谁注意赛后?王楚钦致谢全场,王皓握拳怒吼庆祝

王楚钦4-3达科,谁注意赛后?王楚钦致谢全场,王皓握拳怒吼庆祝

篮球资讯达人
2026-04-04 20:23:25
生死36小时:美军特种兵突入伊朗营救被俘飞行员

生死36小时:美军特种兵突入伊朗营救被俘飞行员

凤眼论
2026-04-04 21:34:53
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
姆巴佩屡失良机,皇马遭91分钟绝杀!5连胜戛然而止,巴萨收大礼

姆巴佩屡失良机,皇马遭91分钟绝杀!5连胜戛然而止,巴萨收大礼

我的护球最独特
2026-04-05 00:17:15
张雪狠批哪吒汽车之死:五个亿就为做个Logo!

张雪狠批哪吒汽车之死:五个亿就为做个Logo!

新浪财经
2026-04-04 20:30:57
访陆前,国民党主席郑丽文放下身段,拜会了大名鼎鼎的南霸天

访陆前,国民党主席郑丽文放下身段,拜会了大名鼎鼎的南霸天

最美的开始
2026-04-03 17:27:35
抛弃中国,伊朗为何选择日本作为中间调停者

抛弃中国,伊朗为何选择日本作为中间调停者

民间胡扯老哥
2026-04-03 02:20:49
快讯!伊朗伊斯兰革命卫队宣布重大战报了!

快讯!伊朗伊斯兰革命卫队宣布重大战报了!

达文西看世界
2026-04-04 21:28:47
台湾餐饮业劳工平均月薪仅为3.9万新台币,专家叹“连存钱都难”

台湾餐饮业劳工平均月薪仅为3.9万新台币,专家叹“连存钱都难”

海峡导报社
2026-04-04 10:01:02
今日油价|4月4日调整后92/95号汽油价格,下周油价将大涨!

今日油价|4月4日调整后92/95号汽油价格,下周油价将大涨!

猪友巴巴
2026-04-04 16:20:03
一天两架美军战机被击落,特朗普“赢” 不下去了 | 京酿馆

一天两架美军战机被击落,特朗普“赢” 不下去了 | 京酿馆

新京报评论
2026-04-04 15:40:55
2026-04-05 02:55:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7875文章数 558关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

伊朗发动第七轮导弹袭击 耶路撒冷拦截导弹升空

头条要闻

伊朗发动第七轮导弹袭击 耶路撒冷拦截导弹升空

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

Q女士反击,否认逼宋宁峰张婉婷离婚

财经要闻

中微董事长,给半导体泼点冷水

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

手机
艺术
家居
房产
公开课

手机要闻

华为新机再曝,旗舰、阔折叠、常规折叠都有!

艺术要闻

你绝对不能错过的梦幻性感摄影作品!

家居要闻

温馨多元 爱的具象化

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版