网易首页 > 网易号 > 正文 申请入驻

微软研究:AI 编程助手软件调试能力堪忧

0
分享至

IT之家 4 月 13 日消息,OpenAI、Anthropic 和其他顶尖人工智能实验室的人工智能模型越来越多地被用于协助编程任务,谷歌首席执行官桑达尔・皮查伊在去年 10 月透露,该公司 25% 的新代码由 AI 生成;而 Meta 首席执行官马克・扎克伯格也表达了在公司内部广泛部署 AI 编码模型的雄心壮志。

然而,即便是一些目前最先进的 AI 模型,在解决软件漏洞这一问题上,仍然无法与经验丰富的开发者相媲美。微软研究院(微软的研发部门)的一项新研究表明,包括 Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 o3-mini 在内的多款模型,在一个名为 SWE-bench Lite 的软件开发基准测试中,无法成功调试许多问题。

研究的共同作者们测试了九种不同的模型,这些模型作为“基于单个提示词的智能体”的核心,能够使用包括 Python 调试器在内的一系列调试工具。他们给这个智能体分配了一组经过筛选的 300 项软件调试任务,这些任务均来自 SWE-bench Lite。

据共同作者们介绍,即使配备了更强大、更先进的模型,他们的智能体成功完成的调试任务也极少超过一半。其中,Claude 3.7 Sonnet 的平均成功率最高,为 48.4%;其次是 OpenAI 的 o1,成功率为 30.2%;而 o3-mini 的成功率为 22.1%。

为何这些 AI 模型的表现如此不尽如人意?部分模型在使用可用的调试工具以及理解不同工具如何帮助解决不同问题方面存在困难。然而,共同作者们认为,更大的问题在于数据稀缺。他们推测,当前模型的训练数据中,缺乏足够多的“顺序决策过程”数据,即人类调试痕迹的数据。

“我们坚信,训练或微调这些模型可以使它们成为更好的交互式调试器。”共同作者们在研究报告中写道,“然而,这需要专门的数据来满足此类模型训练的需求,例如记录智能体与调试器交互以收集必要信息、随后提出漏洞修复建议的轨迹数据。”

这一发现其实并不令人意外。许多研究都表明,代码生成型 AI 往往会引入安全漏洞和错误,这是由于它们在理解编程逻辑等领域的薄弱环节所导致的。最近对一款流行的 AI 编程工具 Devin 的评估发现,它只能完成 20 项编程测试中的 3 项。

不过,微软的这项研究是迄今为止对模型在这一持续存在问题领域最为详细的剖析之一。尽管它可能不会削弱投资者对 AI 辅助编程工具的热情,但愿它能让开发者及其上级领导三思而后行,不再轻易将编程工作完全交给 AI 来主导。

IT之家注意到,越来越多的科技界领袖对 AI 会取代编程工作的观点提出了质疑。微软联合创始人比尔・盖茨曾表示,他认为编程作为一种职业将会长期存在。与他持相同观点的还有 Replit 首席执行官阿姆贾德・马萨德、 Okta 首席执行官托德・麦金农以及 IBM 首席执行官阿尔温德・克里希纳。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国人发通牒,赖清德准备抓人,黄国昌将被逮捕?郑丽文也悬了

美国人发通牒,赖清德准备抓人,黄国昌将被逮捕?郑丽文也悬了

南宫一二
2026-01-07 13:03:37
微信通话弹窗,终于变了!

微信通话弹窗,终于变了!

全是技能
2026-01-07 15:19:33
特斯拉突然官宣:26.35万起,新车正式发布!

特斯拉突然官宣:26.35万起,新车正式发布!

高科技爱好者
2026-01-06 22:54:18
有钱人低调起来有多惊人?网友:简直颠覆认知。

有钱人低调起来有多惊人?网友:简直颠覆认知。

另子维爱读史
2025-12-28 17:43:40
WTT冠军赛:首场大爆冷!奥运亚军1:3被淘汰,不敌日本男单选手

WTT冠军赛:首场大爆冷!奥运亚军1:3被淘汰,不敌日本男单选手

国乒二三事
2026-01-07 20:15:08
外媒曝料,内鬼就是委副总统,推翻马杜罗的计划由她主动提出!

外媒曝料,内鬼就是委副总统,推翻马杜罗的计划由她主动提出!

阿龙聊军事
2026-01-06 19:52:30
西部排名又变了:马刺爆冷连败,湖人双喜临门,2队排名互换

西部排名又变了:马刺爆冷连败,湖人双喜临门,2队排名互换

篮球大视野
2026-01-07 16:06:12
明日“三九”第一天,再忙也要记得“吃2样,做1事”,暖身又暖胃

明日“三九”第一天,再忙也要记得“吃2样,做1事”,暖身又暖胃

花小厨
2026-01-07 12:25:07
有一种痛苦叫买了“loft公寓房”!入住5年,有些话不吐不快

有一种痛苦叫买了“loft公寓房”!入住5年,有些话不吐不快

装修秀
2026-01-04 10:50:03
腿精:一种行走的修辞学

腿精:一种行走的修辞学

疾跑的小蜗牛
2026-01-06 23:29:54
被张辽射杀的太史慈,到底有多厉害?依据正史,跟吕布是同一档次

被张辽射杀的太史慈,到底有多厉害?依据正史,跟吕布是同一档次

铭记历史呀
2026-01-07 01:10:29
快船如何换到特雷-杨?美媒3换1交易方案:提升哈登不在场时火力

快船如何换到特雷-杨?美媒3换1交易方案:提升哈登不在场时火力

罗说NBA
2026-01-07 21:15:51
2026年春晚彩排路透曝光,恶心一幕发生,这几位明星遭“抵制”

2026年春晚彩排路透曝光,恶心一幕发生,这几位明星遭“抵制”

瓜汁橘长Dr
2026-01-06 09:55:39
最后48小时,特朗普政府终于批准;王毅告诉全球,给中美交情定调

最后48小时,特朗普政府终于批准;王毅告诉全球,给中美交情定调

沈言论
2026-01-07 12:30:03
又让股民买单?12300万股牢牢封死跌停板:想割肉都难…

又让股民买单?12300万股牢牢封死跌停板:想割肉都难…

新浪财经
2026-01-07 14:29:25
突发!停止营业!常州全部门店关闭!

突发!停止营业!常州全部门店关闭!

常州大喇叭
2026-01-07 15:42:01
高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

趣文说娱
2026-01-04 16:34:24
上海美女博主浅柠去世,身体一塌糊涂仍在直播,最后家人忍痛拔管

上海美女博主浅柠去世,身体一塌糊涂仍在直播,最后家人忍痛拔管

林雁飞
2026-01-06 15:16:11
流落柬埔寨街头的网红毒检呈阳性,家属紧急赴柬欲接其回国

流落柬埔寨街头的网红毒检呈阳性,家属紧急赴柬欲接其回国

封面新闻
2026-01-06 19:13:33
格陵兰岛为何让美国如此垂涎,甚至不惜“动用军队”?两个关键词被频频提及

格陵兰岛为何让美国如此垂涎,甚至不惜“动用军队”?两个关键词被频频提及

上观新闻
2026-01-07 22:10:22
2026-01-07 22:48:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
323417文章数 606869关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

美军扣押俄潜艇护航的"水手"油轮 美方人员已上船

头条要闻

美军扣押俄潜艇护航的"水手"油轮 美方人员已上船

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

教育
时尚
旅游
艺术
健康

教育要闻

1月28日,高中—大学生涯教育一体化研讨会暨生涯教育从业者赋能大会

衣服完全没有必要越买越多!准备好这3款单品,百搭又舒适

旅游要闻

“国际IP+本土文化”运营,助力北京环球度假区以文化共鸣提升用户黏性与消费频次|一克商评

艺术要闻

David Grossmann:不一样的风景画

这些新疗法,让化疗不再那么痛苦

无障碍浏览 进入关怀版