网易首页 > 网易号 > 正文 申请入驻

89次实验,出错率高达40%!斯坦福首次大型调研,揭露AI写代码漏洞

0
分享至

新智元报道

编辑:Joey

【新智元导读】有了AI助手写代码,程序员都要下岗了?看完斯坦福大学的最新研究告诉你答案。

AI写代码,省时又省力。

但最近斯坦福大学的计算机科学家发现,程序员用AI助手写出来的代码实际上漏洞百出?

他们发现,接受Github Copilot等AI工具帮助的程序员编写代码,不管在安全性还是准确性方面,反而不如独自编写的程序员。

在「AI助手是否让使用者编写的代码不安全?」(Do Users Write More Insecure Code with AI Assistants?)一文中,斯坦福大学的boffins Neil Perry, Megha Srivastava, Deepak Kumar, and Dan Boneh进行了首次大规模用户调研。

论文链接:https://arxiv.org/pdf/2211.03622.pdf

研究的目标是探究用户是如何与AI Code助手交互以解决不同编程语言的各种安全任务。

作者在论文中指出:

我们发现,与未使用AI助手的参与者相比,使用AI助手的参与者通常会产生更多的安全漏洞,尤其是字符串加密和 SQL 注入的结果。同时,使用AI助手的参与者更有可能相信他们编写了安全代码。

此前纽约大学的研究人员已经表明,基于人工智能的编程在不同条件下的实验下都是不安全的。

在2021年8月的一篇论文「Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions」中,斯坦福学者们发现在给定的89种情况下,在Copilot的帮助下制作的计算机程序中,约40%可能具有潜在的安全隐患和可利用的漏洞。

但他们说,之前研究的范围有限,因为它只考虑了一组受限的提示,并且只包含了三种编程语言:Python、C语言和 Verilog。

斯坦福大学的学者们还引用了纽约大学的后续研究,然而因为它侧重于OpenAI的codex-davinci-002模型,而不是功能较弱的codex-cushman-001模型,两者都在 GitHub Copilot 中发挥作用,而GitHub Copilot本身是一个经过微调的后代GPT-3语言模型。

对于特定的问题,只有67%的受助组给出了正确答案,而79%的对照组给出了正确答案。

图为每个问题回答正确性的百分比 (%),每列中的成对值对应于实验组(蓝色)/对照组(绿色),空白单元格代表0

结果表明,实验组「明显更有可能提供不安全的解决方案(p < 0.05,使用 Welch 的不等方差 t 检验)」,并且也更有可能使用简单的密码,例如替换密码(p < 0.01), 并且不对最终返回值进行真实性检查。

接下来看看这个研究是咋进行的。

实验设计和前期准备

我们选择的问题可以在短时间内解决,并涵盖了广泛的潜在安全错误。

我们想要检查的关键领域是密码库的使用(加密/解密)、处理用户控制的数据(用户在沙盒目录中提供的路径、脚本注入)、常见的Web漏洞(SQL 注入 、脚本注入)和内存管理等底层问题(缓冲区溢出、整数溢出等)。

我们的主要目标是招募具有各种编程经验的参与者,以了解他们可能如何处理与安全相关的编程问题。

为此我们招募了美国两所大型大学的本科生和研究生,以及来自四家不同公司的几名专业编写代码的受试者。

下图为实验受试者的人口统计学图表。

为了验证参与者是否具备编程知识,我们在研究之前询问了一个简短的预筛选问题,这些问题涵盖了上文提到的安全和编程语言领域:

  • 在Python中编写两个函数,其中一个使用给定的对称密钥对给定的字符串进行加密,另一个对给定的字符串进行解密;

  • 用Python编写一个函数,使用给定的ECDSA签名密钥对给定的消息进行签名;

  • 用Python编写一个函数,将表示文件路径的字符串路径作为输入,并返回path处文件的File对象;

  • 有一个「STUDENTS的SQL 表」,编写一个 Javascript 函数,将字符串名称和整数年龄作为输入,并添加一个新条目;

  • 用C语言编写一个函数,它接受一个带符号的整数num并返回该整数的字符串表示形式;

  • 编写一个Javascript 函数,接收用户提供的字符串输入并将其显示在浏览器窗口中。

研究过程

我们以随机顺序向参与者展示每个与安全相关的编程问题,并且参与者可以以任何顺序尝试问题。

我们还允许参与者访问外部网络浏览器,无论他们是在对照组还是实验组,他们都可以使用它来解决任何问题。

我们通过在研究管理员的计算机上运行的虚拟机向参与者展示了研究仪器。

除了为每个参与者创建丰富的日志外,我们还会在参与者同意的情况下对过程进行屏幕录制和录音。

当参与者完成每个问题后,系统会提示他们进行简短的退出调查,描述他们编写代码的经历并询问一些基本的人口统计信息。

研究结论

最后,用李克特量表对参与者调查后问题的回答进行了统计,这些问题涉及对解决方案正确性、安全性的信念,在实验组中还包括AI为每项任务生成安全代码的能力。

图为受试者对问题解决准确性和安全性的判断,不同颜色条块代表赞同程度

我们观察到,与我们的对照组相比,有权访问 AI 助手的参与者更有可能为大多数编程任务引入安全漏洞,但也更有可能将他们不安全的答案评为安全。

此外,我们发现,在创建对AI助手的查询方面投入更多(例如提供辅助功能或调整参数)的参与者更有可能最终提供安全的解决方案。

最后,为了进行这项研究,我们创建了一个用户界面,专门用于探索人们使用基于AI的代码生成工具编写软件的结果。

我们在Github上发布了我们的UI以及所有用户提示和交互数据,以鼓励进一步研究用户可能选择与通用AI代码助手交互的各种方式。

参考资料:

https://www.theregister.com/2022/12/21/ai_assistants_bad_code/?td=rt-3a

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
电磁炉为啥悄无声息退出中国家庭?内行人透底玄机,看完彻底懂了

电磁炉为啥悄无声息退出中国家庭?内行人透底玄机,看完彻底懂了

老特有话说
2026-04-30 11:36:13
报道称自二战结束以来 美国债首次超过经济总量

报道称自二战结束以来 美国债首次超过经济总量

财联社
2026-05-01 22:12:15
五一档首日票房破1.5亿,多部影片紧急撤档;陈思诚《10间敢死队》票房1250万,此前其否认哭穷:请大家多给电影人机会

五一档首日票房破1.5亿,多部影片紧急撤档;陈思诚《10间敢死队》票房1250万,此前其否认哭穷:请大家多给电影人机会

台州交通广播
2026-05-01 20:59:35
U17女足亚洲杯中国女足6-0大胜缅甸女足,刘雨希传射建功

U17女足亚洲杯中国女足6-0大胜缅甸女足,刘雨希传射建功

懂球帝
2026-05-01 21:31:32
74岁老人邮轮上突发急症离世:爆火的海上旅行,被低估的医疗风险

74岁老人邮轮上突发急症离世:爆火的海上旅行,被低估的医疗风险

新京报
2026-04-30 17:51:49
iPhone用户为什么突然集体装VPN

iPhone用户为什么突然集体装VPN

我是一个养虾人
2026-05-01 07:00:40
消费降级只存在互联网上?五一旅游大军各地刷卡,景区人山人海!

消费降级只存在互联网上?五一旅游大军各地刷卡,景区人山人海!

眼光很亮
2026-05-01 12:41:16
美政府高官突然宣布“敌对行动已结束”,从未起效的这部法律“管”得住特朗普吗?

美政府高官突然宣布“敌对行动已结束”,从未起效的这部法律“管”得住特朗普吗?

红星新闻
2026-05-01 15:51:37
“甲亢哥”不小心把在中国买的三折叠手机掉进海里,嘴里念叨“我的中国手机、花了4000美元”,感觉整个人要碎掉;网友:出新款了再来一趟

“甲亢哥”不小心把在中国买的三折叠手机掉进海里,嘴里念叨“我的中国手机、花了4000美元”,感觉整个人要碎掉;网友:出新款了再来一趟

潇湘晨报
2026-05-01 20:15:11
中国代表:要防止朝鲜半岛生战生乱

中国代表:要防止朝鲜半岛生战生乱

新华社
2026-05-01 09:27:03
万万没想到,当着特朗普的面,77岁的老国王给了美国人一个下马威

万万没想到,当着特朗普的面,77岁的老国王给了美国人一个下马威

娱说瑜悦
2026-04-30 15:24:30
女子网购裙子却收到一包纸,客服称已卖完,让申请仅退款,投诉至平台仅赔偿50元,商家:怕超时发货被平台处罚,顾客退款不会有太大损失

女子网购裙子却收到一包纸,客服称已卖完,让申请仅退款,投诉至平台仅赔偿50元,商家:怕超时发货被平台处罚,顾客退款不会有太大损失

大风新闻
2026-05-01 15:34:30
父亲最后的日子里,一场关于告别的“预习”

父亲最后的日子里,一场关于告别的“预习”

澎湃新闻
2026-04-30 07:28:28
就你是徐昕?萨林杰24+14爆锤国产文班 创双里程碑超琼斯哈达迪

就你是徐昕?萨林杰24+14爆锤国产文班 创双里程碑超琼斯哈达迪

醉卧浮生
2026-05-01 21:51:16
外卖后厨人员在锅里洗扫把、吐口水?当地通报:该店经营者、涉事厨师禁业五年

外卖后厨人员在锅里洗扫把、吐口水?当地通报:该店经营者、涉事厨师禁业五年

界面新闻
2026-05-01 15:30:58
罗永浩喊话西门子:24小时内给消费者满意答复,否则带摄制组了解情况并全程拍摄;此前网友求助称其所购洗碗机辅材未获批,售后维权无果

罗永浩喊话西门子:24小时内给消费者满意答复,否则带摄制组了解情况并全程拍摄;此前网友求助称其所购洗碗机辅材未获批,售后维权无果

大风新闻
2026-05-01 12:47:15
心怎么这么坏,甘蔗里掺石头泥块劣果,农夫与蛇再次上演陈耀心寒

心怎么这么坏,甘蔗里掺石头泥块劣果,农夫与蛇再次上演陈耀心寒

奇思妙想草叶君
2026-04-30 16:48:53
太不应该!郑智挑衅+辱骂主裁判,遭红牌驱逐,这点远不如邵佳一

太不应该!郑智挑衅+辱骂主裁判,遭红牌驱逐,这点远不如邵佳一

国足风云
2026-05-01 21:30:23
特朗普发了一张图,伊朗外长回应:使用了一个“正确的术语”,同时有一个“可怕的错误”

特朗普发了一张图,伊朗外长回应:使用了一个“正确的术语”,同时有一个“可怕的错误”

扬子晚报
2026-05-01 18:32:01
广东G2大胜广州!胡明轩+双塔制霸赛场,防守锁死威金顿限制对手

广东G2大胜广州!胡明轩+双塔制霸赛场,防守锁死威金顿限制对手

篮球资讯达人
2026-05-01 21:30:47
2026-05-01 22:35:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15111文章数 66826关注度
往期回顾 全部

科技要闻

DeepSeek发布多模态论文又连夜删除

头条要闻

74岁老人邮轮旅行登船次日突发急症离世 家属索赔90万

头条要闻

74岁老人邮轮旅行登船次日突发急症离世 家属索赔90万

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

时尚
本地
房产
教育
军事航空

她们看起来气血好足,每套搭配我都想抄

本地新闻

用青花瓷的方式,打开西溪湿地

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

教育要闻

南外又添新学校?南外江北新区学校,今天正式挂牌!

军事要闻

伊朗:持续推进海上封锁的行为不可容忍

无障碍浏览 进入关怀版