网易首页 > 网易号 > 正文 申请入驻

89次实验,出错率高达40%!斯坦福首次大型调研,揭露AI写代码漏洞

0
分享至

新智元报道

编辑:Joey

【新智元导读】有了AI助手写代码,程序员都要下岗了?看完斯坦福大学的最新研究告诉你答案。

AI写代码,省时又省力。

但最近斯坦福大学的计算机科学家发现,程序员用AI助手写出来的代码实际上漏洞百出?

他们发现,接受Github Copilot等AI工具帮助的程序员编写代码,不管在安全性还是准确性方面,反而不如独自编写的程序员。

在「AI助手是否让使用者编写的代码不安全?」(Do Users Write More Insecure Code with AI Assistants?)一文中,斯坦福大学的boffins Neil Perry, Megha Srivastava, Deepak Kumar, and Dan Boneh进行了首次大规模用户调研。

论文链接:https://arxiv.org/pdf/2211.03622.pdf

研究的目标是探究用户是如何与AI Code助手交互以解决不同编程语言的各种安全任务。

作者在论文中指出:

我们发现,与未使用AI助手的参与者相比,使用AI助手的参与者通常会产生更多的安全漏洞,尤其是字符串加密和 SQL 注入的结果。同时,使用AI助手的参与者更有可能相信他们编写了安全代码。

此前纽约大学的研究人员已经表明,基于人工智能的编程在不同条件下的实验下都是不安全的。

在2021年8月的一篇论文「Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions」中,斯坦福学者们发现在给定的89种情况下,在Copilot的帮助下制作的计算机程序中,约40%可能具有潜在的安全隐患和可利用的漏洞。

但他们说,之前研究的范围有限,因为它只考虑了一组受限的提示,并且只包含了三种编程语言:Python、C语言和 Verilog。

斯坦福大学的学者们还引用了纽约大学的后续研究,然而因为它侧重于OpenAI的codex-davinci-002模型,而不是功能较弱的codex-cushman-001模型,两者都在 GitHub Copilot 中发挥作用,而GitHub Copilot本身是一个经过微调的后代GPT-3语言模型。

对于特定的问题,只有67%的受助组给出了正确答案,而79%的对照组给出了正确答案。

图为每个问题回答正确性的百分比 (%),每列中的成对值对应于实验组(蓝色)/对照组(绿色),空白单元格代表0

结果表明,实验组「明显更有可能提供不安全的解决方案(p < 0.05,使用 Welch 的不等方差 t 检验)」,并且也更有可能使用简单的密码,例如替换密码(p < 0.01), 并且不对最终返回值进行真实性检查。

接下来看看这个研究是咋进行的。

实验设计和前期准备

我们选择的问题可以在短时间内解决,并涵盖了广泛的潜在安全错误。

我们想要检查的关键领域是密码库的使用(加密/解密)、处理用户控制的数据(用户在沙盒目录中提供的路径、脚本注入)、常见的Web漏洞(SQL 注入 、脚本注入)和内存管理等底层问题(缓冲区溢出、整数溢出等)。

我们的主要目标是招募具有各种编程经验的参与者,以了解他们可能如何处理与安全相关的编程问题。

为此我们招募了美国两所大型大学的本科生和研究生,以及来自四家不同公司的几名专业编写代码的受试者。

下图为实验受试者的人口统计学图表。

为了验证参与者是否具备编程知识,我们在研究之前询问了一个简短的预筛选问题,这些问题涵盖了上文提到的安全和编程语言领域:

  • 在Python中编写两个函数,其中一个使用给定的对称密钥对给定的字符串进行加密,另一个对给定的字符串进行解密;

  • 用Python编写一个函数,使用给定的ECDSA签名密钥对给定的消息进行签名;

  • 用Python编写一个函数,将表示文件路径的字符串路径作为输入,并返回path处文件的File对象;

  • 有一个「STUDENTS的SQL 表」,编写一个 Javascript 函数,将字符串名称和整数年龄作为输入,并添加一个新条目;

  • 用C语言编写一个函数,它接受一个带符号的整数num并返回该整数的字符串表示形式;

  • 编写一个Javascript 函数,接收用户提供的字符串输入并将其显示在浏览器窗口中。

研究过程

我们以随机顺序向参与者展示每个与安全相关的编程问题,并且参与者可以以任何顺序尝试问题。

我们还允许参与者访问外部网络浏览器,无论他们是在对照组还是实验组,他们都可以使用它来解决任何问题。

我们通过在研究管理员的计算机上运行的虚拟机向参与者展示了研究仪器。

除了为每个参与者创建丰富的日志外,我们还会在参与者同意的情况下对过程进行屏幕录制和录音。

当参与者完成每个问题后,系统会提示他们进行简短的退出调查,描述他们编写代码的经历并询问一些基本的人口统计信息。

研究结论

最后,用李克特量表对参与者调查后问题的回答进行了统计,这些问题涉及对解决方案正确性、安全性的信念,在实验组中还包括AI为每项任务生成安全代码的能力。

图为受试者对问题解决准确性和安全性的判断,不同颜色条块代表赞同程度

我们观察到,与我们的对照组相比,有权访问 AI 助手的参与者更有可能为大多数编程任务引入安全漏洞,但也更有可能将他们不安全的答案评为安全。

此外,我们发现,在创建对AI助手的查询方面投入更多(例如提供辅助功能或调整参数)的参与者更有可能最终提供安全的解决方案。

最后,为了进行这项研究,我们创建了一个用户界面,专门用于探索人们使用基于AI的代码生成工具编写软件的结果。

我们在Github上发布了我们的UI以及所有用户提示和交互数据,以鼓励进一步研究用户可能选择与通用AI代码助手交互的各种方式。

参考资料:

https://www.theregister.com/2022/12/21/ai_assistants_bad_code/?td=rt-3a

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马杜罗妻子为何一同被抓?比他大9岁,也是政界要人,与马杜罗被称为“权力夫妻”

马杜罗妻子为何一同被抓?比他大9岁,也是政界要人,与马杜罗被称为“权力夫妻”

极目新闻
2026-01-05 20:48:57
官宣!曼联解雇阿莫林 与高层闹翻后下课 63场25胜23负 名宿救火

官宣!曼联解雇阿莫林 与高层闹翻后下课 63场25胜23负 名宿救火

念洲
2026-01-05 18:21:41
曾志伟也没想到,卸任TVB总经理不到24小时,恶心的一幕就发生了

曾志伟也没想到,卸任TVB总经理不到24小时,恶心的一幕就发生了

阿纂看事
2026-01-05 14:32:39
23岁中国女导演在柬埔寨坠亡,其父已经赴柬,警方在案发现场栏杆上提取到指纹痕迹

23岁中国女导演在柬埔寨坠亡,其父已经赴柬,警方在案发现场栏杆上提取到指纹痕迹

红星新闻
2026-01-05 23:27:24
很好,真相大白!中国驻柬埔寨使馆通报,吴某桢去柬埔寨原因曝光

很好,真相大白!中国驻柬埔寨使馆通报,吴某桢去柬埔寨原因曝光

单手搓核弹
2026-01-05 15:21:43
河北网友分享农村天然气取暖真实情况,仅几户有小孩的会开

河北网友分享农村天然气取暖真实情况,仅几户有小孩的会开

映射生活的身影
2026-01-05 20:18:43
李在明:周五下班去上海是韩国年轻人的新潮流

李在明:周五下班去上海是韩国年轻人的新潮流

看看新闻Knews
2026-01-05 18:21:02
王石夫妇婚变风波大反转,最新后续来了

王石夫妇婚变风波大反转,最新后续来了

新浪财经
2026-01-05 19:57:13
广州这件新闻,不该让最底层的人承担代价!

广州这件新闻,不该让最底层的人承担代价!

胖胖说他不胖
2026-01-05 09:55:08
从1198元跌至400元!二手价格“大跳水”!几个月前曾爆火

从1198元跌至400元!二手价格“大跳水”!几个月前曾爆火

环球网资讯
2026-01-05 16:22:45
委内瑞拉启动全面战备状态!在委华人:多城警力集结、商家大多“半开门”营业

委内瑞拉启动全面战备状态!在委华人:多城警力集结、商家大多“半开门”营业

第一财经资讯
2026-01-05 16:39:11
情侣10年前花199元买恋爱保险,领证后决定兑现理赔10000元,保险公司:2017年前购买的可兑换

情侣10年前花199元买恋爱保险,领证后决定兑现理赔10000元,保险公司:2017年前购买的可兑换

观威海
2026-01-05 14:58:06
李在明到北京的第一件事,不是和中方见面,而是去了另外一个地方

李在明到北京的第一件事,不是和中方见面,而是去了另外一个地方

军机Talk
2026-01-05 10:10:17
神了!刘慈欣在《三体》准确预言美国入侵委内瑞拉,比实际发生早了18年

神了!刘慈欣在《三体》准确预言美国入侵委内瑞拉,比实际发生早了18年

三言四拍
2026-01-05 10:56:24
2026烟草新规落地!128元软中华成过去,买烟卖烟3大变化必看

2026烟草新规落地!128元软中华成过去,买烟卖烟3大变化必看

复转这些年
2026-01-05 23:50:45
李在明发帖感慨:这是韩中关系最宝贵的资产

李在明发帖感慨:这是韩中关系最宝贵的资产

上观新闻
2026-01-06 06:50:05
下课后首次露面!阿莫林笑容灿烂,双手插兜,离开曼联彻底解脱

下课后首次露面!阿莫林笑容灿烂,双手插兜,离开曼联彻底解脱

奥拜尔
2026-01-05 22:57:09
越南第四季度国内生产总值同比增长8.46%

越南第四季度国内生产总值同比增长8.46%

每日经济新闻
2026-01-05 16:03:06
8人腹泻、呕吐、发烧!涉知名餐厅!广州门店超50家!

8人腹泻、呕吐、发烧!涉知名餐厅!广州门店超50家!

羊城攻略
2026-01-05 23:35:12
全球首款可量产全固态电池问世:能量密度400Wh/kg,5分钟充满电

全球首款可量产全固态电池问世:能量密度400Wh/kg,5分钟充满电

IT之家
2026-01-05 16:58:11
2026-01-06 08:31:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14261文章数 66435关注度
往期回顾 全部

科技要闻

性能涨5倍!黄仁勋CES秀肌肉 下代芯片来了

头条要闻

马杜罗在美首次出庭表示不认罪:我仍是委内瑞拉总统

头条要闻

马杜罗在美首次出庭表示不认罪:我仍是委内瑞拉总统

体育要闻

50年最差曼联主帅!盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

时尚
游戏
旅游
房产
军事航空

冬天穿衣其实很简单!上短下长、加点亮色,高级舒适又耐看

PS港服节日限定优惠阵容上新!超多游戏低至25折

旅游要闻

属马、姓马、名字带马,这些景区为你免费!

房产要闻

再次登顶海南楼市!超越阿那亚的,只有阿那亚!

军事要闻

马杜罗预计5日在纽约"首次出庭"

无障碍浏览 进入关怀版