网易首页 > 网易号 > 正文 申请入驻

微软研究:AI 编程助手软件调试能力堪忧

0
分享至

IT之家 4 月 13 日消息,OpenAI、Anthropic 和其他顶尖人工智能实验室的人工智能模型越来越多地被用于协助编程任务,谷歌首席执行官桑达尔・皮查伊在去年 10 月透露,该公司 25% 的新代码由 AI 生成;而 Meta 首席执行官马克・扎克伯格也表达了在公司内部广泛部署 AI 编码模型的雄心壮志。

然而,即便是一些目前最先进的 AI 模型,在解决软件漏洞这一问题上,仍然无法与经验丰富的开发者相媲美。微软研究院(微软的研发部门)的一项新研究表明,包括 Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 o3-mini 在内的多款模型,在一个名为 SWE-bench Lite 的软件开发基准测试中,无法成功调试许多问题。

研究的共同作者们测试了九种不同的模型,这些模型作为“基于单个提示词的智能体”的核心,能够使用包括 Python 调试器在内的一系列调试工具。他们给这个智能体分配了一组经过筛选的 300 项软件调试任务,这些任务均来自 SWE-bench Lite。

据共同作者们介绍,即使配备了更强大、更先进的模型,他们的智能体成功完成的调试任务也极少超过一半。其中,Claude 3.7 Sonnet 的平均成功率最高,为 48.4%;其次是 OpenAI 的 o1,成功率为 30.2%;而 o3-mini 的成功率为 22.1%。

为何这些 AI 模型的表现如此不尽如人意?部分模型在使用可用的调试工具以及理解不同工具如何帮助解决不同问题方面存在困难。然而,共同作者们认为,更大的问题在于数据稀缺。他们推测,当前模型的训练数据中,缺乏足够多的“顺序决策过程”数据,即人类调试痕迹的数据。

“我们坚信,训练或微调这些模型可以使它们成为更好的交互式调试器。”共同作者们在研究报告中写道,“然而,这需要专门的数据来满足此类模型训练的需求,例如记录智能体与调试器交互以收集必要信息、随后提出漏洞修复建议的轨迹数据。”

这一发现其实并不令人意外。许多研究都表明,代码生成型 AI 往往会引入安全漏洞和错误,这是由于它们在理解编程逻辑等领域的薄弱环节所导致的。最近对一款流行的 AI 编程工具 Devin 的评估发现,它只能完成 20 项编程测试中的 3 项。

不过,微软的这项研究是迄今为止对模型在这一持续存在问题领域最为详细的剖析之一。尽管它可能不会削弱投资者对 AI 辅助编程工具的热情,但愿它能让开发者及其上级领导三思而后行,不再轻易将编程工作完全交给 AI 来主导。

IT之家注意到,越来越多的科技界领袖对 AI 会取代编程工作的观点提出了质疑。微软联合创始人比尔・盖茨曾表示,他认为编程作为一种职业将会长期存在。与他持相同观点的还有 Replit 首席执行官阿姆贾德・马萨德、 Okta 首席执行官托德・麦金农以及 IBM 首席执行官阿尔温德・克里希纳。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一代香港美人,感觉不是很开心的样子,大家还记得她的名字吗?

一代香港美人,感觉不是很开心的样子,大家还记得她的名字吗?

动物奇奇怪怪
2026-03-26 08:35:16
石油危机一旦爆发,房子、现金、股票、黄金谁最危险?

石油危机一旦爆发,房子、现金、股票、黄金谁最危险?

蜉蝣说
2026-03-26 16:52:10
FIFA系列赛新规:比赛需决出胜负 打平将互射点球

FIFA系列赛新规:比赛需决出胜负 打平将互射点球

体坛周报
2026-03-26 15:53:18
男女约会隐秘又安全的12个地方,有6个场合你根本想不到

男女约会隐秘又安全的12个地方,有6个场合你根本想不到

聪明小石头
2026-03-21 09:13:42
马英九专访中途喊停,原因曝光

马英九专访中途喊停,原因曝光

郭茂辰海峡传真
2026-03-26 21:32:49
张雪峰女儿张姩菡发文:我不想哭,但眼泪止不住,我没有得到父爱

张雪峰女儿张姩菡发文:我不想哭,但眼泪止不住,我没有得到父爱

爆笑大聪明阿衿
2026-03-26 20:48:48
哪吒汽车破产覆灭,最讽刺的不是200亿债务,而是这个名字本身

哪吒汽车破产覆灭,最讽刺的不是200亿债务,而是这个名字本身

蜉蝣说
2026-03-25 10:54:58
新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

荷兰豆爱健康
2026-03-26 08:26:08
吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

念洲
2026-03-26 13:14:22
流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

澎湃新闻
2026-03-26 07:06:31
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
一口气刷完全集,Netflix新剧又杀疯了

一口气刷完全集,Netflix新剧又杀疯了

来看美剧
2026-03-26 19:45:54
20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

悄悄史话
2026-03-26 14:09:05
新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社
2026-03-26 10:06:18
洛克希德·马丁:将精确打击导弹产量提升四倍

洛克希德·马丁:将精确打击导弹产量提升四倍

财联社
2026-03-25 19:18:36
曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

180视角
2026-03-25 16:58:57
斯柯达将退出中国,大众中国回应

斯柯达将退出中国,大众中国回应

第一财经资讯
2026-03-26 15:14:56
曼城115项指控迎大结局?专家预测扣分在40到60分之间

曼城115项指控迎大结局?专家预测扣分在40到60分之间

乐道足球
2026-03-26 19:55:49
拉里贾尼继任者不到一天被杀,川普加派82空降师开赴中东

拉里贾尼继任者不到一天被杀,川普加派82空降师开赴中东

移光幻影
2026-03-26 09:56:37
李幼平同志逝世

李幼平同志逝世

澎湃新闻
2026-03-26 18:05:03
2026-03-27 00:24:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
336122文章数 607091关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
本地
教育
时尚
军事航空

家居要闻

傍海而居 静观蝴蝶海

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

教育要闻

天天学习|走进课堂的“大朋友”

400万人爱过的女孩,被黄谣网暴180天后

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版