网易首页 > 网易号 > 正文 申请入驻

ChatGPT修bug横扫全场,准确率达78%!网友:程序员要开心了

0
分享至

金磊 衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT到底有多会修bug?

这事终于有人正儿八经地搞研究了——

来自德国、英国的研究人员,专门搭了个“擂台”来检验ChatGPT的这项本领。

除了ChatGPT之外,研究人员还找来了其它三位修bug的“AI猛将”,分别让它们修复40个错误代码。

结果真是不比不知道,一比吓一跳。

ChatGPT准确修复了其中31个bug,遥遥领先第二名(21个),直接拿下“AI修bug界”的SOTA成绩!

于是乎,这项研究引来了众多网友的围观和讨论,Reddit上发布此帖的标题更是用上了“小心”“注意”这样的字眼:

但事实上,这真的会让程序员“危”吗?

我们不妨先来看下这项研究。

很会修bug的ChatGPT

虽然ChatGPT并非是为了专门修改bug而生,但自打它问世以来,不少网友们都发现它是具备这项能力的。

因此研究人员为了摸清ChatGPT到底能修改bug到什么程度,便引入了标准的错误修复基准集QuixBugs来进行评估。

以及与它同台竞技的AI选手,分别是CodeXCoCoNutStandard APR

研究人员从QuixBugs中挑了40个问题,分别让它们来修复bug。

让ChatGPT来修bug的方法,就是在对话框里向它提问:

这个代码有什么错误吗?

在第一轮较量过后,结果如下:

从第一轮battle结果来看,ChatGPT修复了19个,CodeX修复了21个,CoCoNut修复了19个,Standard APR则是7个。

而且研究人员还发现,ChatGPT的答案与CodeX最为相似;这是因为它俩是来自同一个语言模型家族。

这时候就会有小伙伴要问了,“ChatGPT不是还没有CodeX厉害吗”。

别急,不要忘了,ChatGPT的一个特点就是越问越“上道”。

例如在这个基准集中,有一个叫bitcount的问题,ChatGPT在刚才第一轮修复过程中是给出了错误的答案:

原本ChatGPT应该将第7行的 n ^ = n - 1 改为 n & = n - 1。

但在第一轮中它的回答是:

如果没有更多关于预期行为和导致问题的输入信息,我无法判断程序是否存在错误。

于是在给予它更多信息之后,ChatGPT便答对了这个问题。

以此类推,在对第一轮没答对的问题进行更多信息提示之后,ChatGPT的修bug能力有了大幅提高:

最终,ChatGPT在QuixBugs的40个问题里答对了31个。

网友忧喜参半

对于这样的实验结果,网友们对ChatGPT修bug拿下SOTA这事产生的态度却不太一样。

有网友认为这事不应该让程序员感到危机,而是会让他们觉得开心才对。

言外之意,便是程序员们有了这么好用的工具,干活儿就会变得事半功倍。

不过也有人对此给出了不一样的看法:

工作变得简单,不也就意味着需要的人力更少了吗?

但还有网友觉得,活儿是干不完的:

即使AI能把开发时间缩短一个数量级,也只是意味着程序员将更快处理下一个工作。

整体来看,ChatGPT很会修bug,并不会给程序员带来什么致命伤害。

但若是把目光放到OpenAI其他的行动中呢?

全球招外包训练ChatGPT写代码

在此之前,OpenAI就表示过ChatGPT的重要用途之一是帮助程序员检查代码

换言之,它被定位可用的辅助工具

相比“ChatGPT带来威胁”的看法,等ChatGPT能力彻底进化,程序员都不用再怕写bug了。

OpenAI布局的棋盘上,可不只有改bug偷塔程序员岗位这一件事。

为了让它更大更强,OpenAI被曝在拉美和东欧等地区,提供了1000个外包岗位

外包员工的主要工作是标注数据,以及训练ChatGPT写代码

这1000人中,40%是程序员,他们为OpenAI的模型创建数据,用来学习软件工程任务。

一直以来,OpenAI的训练数据是从GitHub上抓取的。

现在外包程序员们新手搓的数据集,不仅包括代码行,还包括代码行背后的人类思考逻辑步骤

有位南美的软件开发人员爆料,他为OpenAI完成了五小时的无偿编码测试。

整个过程中,他的任务分为两部分。

  • 用书面英语解释如何处理一个编码问题;
  • 提供解决方案。

如果发现bug,OpenAI会向他详细询问bug的具体情况,并请教如何修正。

程序员需要展示思考问题的每个步骤,他据此猜测OpenAI很可能想为ChatGPT提供非常具体的训练数据。

特斯拉前AI主管Andrej Karpathy在推特上调侃:

最新的热门编程语言是英语。

不过话说回来,ChatGPT修bug能力强是好事,要真能搞进化到可以完成代码里死记硬背的部分,也是好事。

毕竟OpenAI成立时对外宣称的宗旨,就是希望“确保通用人工智能可以造福全人类”。

虽然乍一看它这些年做的事,有点像在致力于用一部分人的努力,让更多人失业

从Dota2赛场上碾压人类,到GPT-3、DALL-E2、ChatGPT的闪耀表现,它带来的新产品总是伴随着“快要让xxx失业了”的议论声。

但无论如何,商业却一直对它青睐有加。

就目前而言,OpenAI的主要商业模式是API费用、token费用和软件许可。

OpenAI近期还发布了ChatGPT的付费版ChatGPT Pro,每月费用42美元(约合285元人民币)。

虽然机器人对话初创公司如雨后春笋般冒出,但诸多迹象表明市场对OpenAI的持续看好。

微软刚刚宣布将向OpenAI加码投资数十亿美元,并将OpenAI的模型融入微软必应等消费级和企业级产品中。

根据知情人士透露,此次追加投资数额约为100亿美元。

与此同时,WSJ披露的消息显示,1月初,亿万富翁Peter Thiel创立的风投基金Founders Fund正在就投资OpenAI进行谈判。

据悉,融资金额将至少达3亿美元

One More Thing

在第一轮实验中,ChatGPT并没有解决QuixBugs数据集的bitcount问题。

但若是你现在再重头问一次这个问题,就会发现ChatGPT可以“一遍过”:

那么这是否意味着ChatGPT已经从这次研究过程中学会求解了呢?

[1] https://arxiv.org/abs/2301.08653
[2] https://www.pcmag.com/news/watch-out-software-engineers-chatgpt-is-now-finding-fixing-bugs-in-code
[3] https://www.reddit.com/r/technology/comments/10oaw6n/watch_out_software_engineers_chatgpt_is_now/
[4] https://en.wi.bwl.uni-mainz.de/dominik-sobania/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一大批高校,将搬迁!

一大批高校,将搬迁!

吉刻新闻
2026-04-27 16:08:43
泰国工厂突发冲突!中泰工人互相群殴,视频曝光现场一片混乱

泰国工厂突发冲突!中泰工人互相群殴,视频曝光现场一片混乱

暹罗飞鸟
2026-04-28 08:14:15
上海地铁互殴后续:央媒发声定调,女子工作恐不保,知情人曝更多

上海地铁互殴后续:央媒发声定调,女子工作恐不保,知情人曝更多

以茶带书
2026-04-27 19:23:12
055大驱直接发射鹰击-20,当着七国的面开火,解放军反制稳控南海

055大驱直接发射鹰击-20,当着七国的面开火,解放军反制稳控南海

谛听骨语本尊
2026-04-27 19:29:52
Manus,彻底凉凉了

Manus,彻底凉凉了

技术领导力
2026-04-27 20:37:27
太心疼!马筱梅哭到停更,带娃逃回台湾:凭啥要我和孩子遭这罪

太心疼!马筱梅哭到停更,带娃逃回台湾:凭啥要我和孩子遭这罪

小娱乐悠悠
2026-04-28 07:56:17
5月1日起抽烟买烟迎来变化,6条红线碰不得,违规就罚款!

5月1日起抽烟买烟迎来变化,6条红线碰不得,违规就罚款!

老特有话说
2026-04-27 17:43:49
蒸馏这事,美国人自己天天干,为啥到了DeepSeek就成“工业化窃取了”?

蒸馏这事,美国人自己天天干,为啥到了DeepSeek就成“工业化窃取了”?

科学伙伴
2026-04-27 17:36:10
我国最容易叫错的6个城市,念对一个算有文化,认识一半算你厉害

我国最容易叫错的6个城市,念对一个算有文化,认识一半算你厉害

长风文史
2026-04-27 20:19:33
新规落地!5月1日起,饭局、转账或被全程监管,别大意!

新规落地!5月1日起,饭局、转账或被全程监管,别大意!

小谈食刻美食
2026-04-28 07:30:36
名记:杜兰特或已打完火箭生涯最后一场球,下家是纽约和热火

名记:杜兰特或已打完火箭生涯最后一场球,下家是纽约和热火

懂球帝
2026-04-28 09:32:05
场均8失误,坎宁安连续三场季后赛累计24个失误,历史最多

场均8失误,坎宁安连续三场季后赛累计24个失误,历史最多

懂球帝
2026-04-28 11:37:50
徐泽伟已被引渡至美国,连律师都不知情!

徐泽伟已被引渡至美国,连律师都不知情!

意大利华人网0039
2026-04-28 00:06:41
迟到2分钟被取消事业单位体检资格 人社局机械执法败诉

迟到2分钟被取消事业单位体检资格 人社局机械执法败诉

封面新闻
2026-04-27 16:20:23
NBA罚单:斯马特质疑裁判公正性罚3.5万 肯纳德不当言论罚2.5万

NBA罚单:斯马特质疑裁判公正性罚3.5万 肯纳德不当言论罚2.5万

醉卧浮生
2026-04-28 10:04:51
我国这4个著名大镇,名气之大,超过了所属地级市,非常强悍

我国这4个著名大镇,名气之大,超过了所属地级市,非常强悍

长风文史
2026-04-26 21:00:50
印度要下狠手了!精心布局9年,今天一把梭哈!

印度要下狠手了!精心布局9年,今天一把梭哈!

华山穹剑
2026-04-27 20:06:05
战损曝光!中东战火下美军事资产“损失惨重” 五角大楼试图掩盖成本引质疑

战损曝光!中东战火下美军事资产“损失惨重” 五角大楼试图掩盖成本引质疑

财联社
2026-04-28 10:04:12
世锦赛8强落位:吴宜泽vs瓦菲,希金斯vs萝卜,最终4强大概率如下

世锦赛8强落位:吴宜泽vs瓦菲,希金斯vs萝卜,最终4强大概率如下

小火箭爱体育
2026-04-28 08:58:17
巩俐巴黎街头与丈夫争执摔花,77岁老公一个摸头杀,全网破防

巩俐巴黎街头与丈夫争执摔花,77岁老公一个摸头杀,全网破防

茶余饭好
2026-04-27 20:20:50
2026-04-28 11:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12546文章数 176458关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

美军事资产被指"损失惨重" 修复费用可能高达50亿美元

头条要闻

美军事资产被指"损失惨重" 修复费用可能高达50亿美元

体育要闻

人类马拉松"破二"新纪元,一场跑鞋军备竞赛

娱乐要闻

杨幂险遭蒸汽眼罩毁容!伤照曝光…

财经要闻

俞敏洪再遭重击

汽车要闻

上汽大众“攻山头” ID.ERA 9X剑指细分前三

态度原创

亲子
房产
手机
旅游
公开课

亲子要闻

你是爹的快递护卫兼人肉配重啊!

房产要闻

信号!海南商业版图,迎来大变局!

手机要闻

消息称iQOO 15T / iQOO Pad 6 Pro暂定5月发布

旅游要闻

蒙山、云冈石窟、北岳恒山、悬空寺景区最新公告

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版