网易首页 > 网易号 > 正文 申请入驻

89次实验,出错率高达40%!斯坦福首次大型调研,揭露AI写代码漏洞

0
分享至

新智元报道

编辑:Joey

【新智元导读】有了AI助手写代码,程序员都要下岗了?看完斯坦福大学的最新研究告诉你答案。

AI写代码,省时又省力。

但最近斯坦福大学的计算机科学家发现,程序员用AI助手写出来的代码实际上漏洞百出?

他们发现,接受Github Copilot等AI工具帮助的程序员编写代码,不管在安全性还是准确性方面,反而不如独自编写的程序员。

在「AI助手是否让使用者编写的代码不安全?」(Do Users Write More Insecure Code with AI Assistants?)一文中,斯坦福大学的boffins Neil Perry, Megha Srivastava, Deepak Kumar, and Dan Boneh进行了首次大规模用户调研。

论文链接:https://arxiv.org/pdf/2211.03622.pdf

研究的目标是探究用户是如何与AI Code助手交互以解决不同编程语言的各种安全任务。

作者在论文中指出:

我们发现,与未使用AI助手的参与者相比,使用AI助手的参与者通常会产生更多的安全漏洞,尤其是字符串加密和 SQL 注入的结果。同时,使用AI助手的参与者更有可能相信他们编写了安全代码。

此前纽约大学的研究人员已经表明,基于人工智能的编程在不同条件下的实验下都是不安全的。

在2021年8月的一篇论文「Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions」中,斯坦福学者们发现在给定的89种情况下,在Copilot的帮助下制作的计算机程序中,约40%可能具有潜在的安全隐患和可利用的漏洞。

但他们说,之前研究的范围有限,因为它只考虑了一组受限的提示,并且只包含了三种编程语言:Python、C语言和 Verilog。

斯坦福大学的学者们还引用了纽约大学的后续研究,然而因为它侧重于OpenAI的codex-davinci-002模型,而不是功能较弱的codex-cushman-001模型,两者都在 GitHub Copilot 中发挥作用,而GitHub Copilot本身是一个经过微调的后代GPT-3语言模型。

对于特定的问题,只有67%的受助组给出了正确答案,而79%的对照组给出了正确答案。

图为每个问题回答正确性的百分比 (%),每列中的成对值对应于实验组(蓝色)/对照组(绿色),空白单元格代表0

结果表明,实验组「明显更有可能提供不安全的解决方案(p < 0.05,使用 Welch 的不等方差 t 检验)」,并且也更有可能使用简单的密码,例如替换密码(p < 0.01), 并且不对最终返回值进行真实性检查。

接下来看看这个研究是咋进行的。

实验设计和前期准备

我们选择的问题可以在短时间内解决,并涵盖了广泛的潜在安全错误。

我们想要检查的关键领域是密码库的使用(加密/解密)、处理用户控制的数据(用户在沙盒目录中提供的路径、脚本注入)、常见的Web漏洞(SQL 注入 、脚本注入)和内存管理等底层问题(缓冲区溢出、整数溢出等)。

我们的主要目标是招募具有各种编程经验的参与者,以了解他们可能如何处理与安全相关的编程问题。

为此我们招募了美国两所大型大学的本科生和研究生,以及来自四家不同公司的几名专业编写代码的受试者。

下图为实验受试者的人口统计学图表。

为了验证参与者是否具备编程知识,我们在研究之前询问了一个简短的预筛选问题,这些问题涵盖了上文提到的安全和编程语言领域:

  • 在Python中编写两个函数,其中一个使用给定的对称密钥对给定的字符串进行加密,另一个对给定的字符串进行解密;

  • 用Python编写一个函数,使用给定的ECDSA签名密钥对给定的消息进行签名;

  • 用Python编写一个函数,将表示文件路径的字符串路径作为输入,并返回path处文件的File对象;

  • 有一个「STUDENTS的SQL 表」,编写一个 Javascript 函数,将字符串名称和整数年龄作为输入,并添加一个新条目;

  • 用C语言编写一个函数,它接受一个带符号的整数num并返回该整数的字符串表示形式;

  • 编写一个Javascript 函数,接收用户提供的字符串输入并将其显示在浏览器窗口中。

研究过程

我们以随机顺序向参与者展示每个与安全相关的编程问题,并且参与者可以以任何顺序尝试问题。

我们还允许参与者访问外部网络浏览器,无论他们是在对照组还是实验组,他们都可以使用它来解决任何问题。

我们通过在研究管理员的计算机上运行的虚拟机向参与者展示了研究仪器。

除了为每个参与者创建丰富的日志外,我们还会在参与者同意的情况下对过程进行屏幕录制和录音。

当参与者完成每个问题后,系统会提示他们进行简短的退出调查,描述他们编写代码的经历并询问一些基本的人口统计信息。

研究结论

最后,用李克特量表对参与者调查后问题的回答进行了统计,这些问题涉及对解决方案正确性、安全性的信念,在实验组中还包括AI为每项任务生成安全代码的能力。

图为受试者对问题解决准确性和安全性的判断,不同颜色条块代表赞同程度

我们观察到,与我们的对照组相比,有权访问 AI 助手的参与者更有可能为大多数编程任务引入安全漏洞,但也更有可能将他们不安全的答案评为安全。

此外,我们发现,在创建对AI助手的查询方面投入更多(例如提供辅助功能或调整参数)的参与者更有可能最终提供安全的解决方案。

最后,为了进行这项研究,我们创建了一个用户界面,专门用于探索人们使用基于AI的代码生成工具编写软件的结果。

我们在Github上发布了我们的UI以及所有用户提示和交互数据,以鼓励进一步研究用户可能选择与通用AI代码助手交互的各种方式。

参考资料:

https://www.theregister.com/2022/12/21/ai_assistants_bad_code/?td=rt-3a

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
沉默整整9天,毛宁一锤定音,中美战机已交手,美方要见中国代表

沉默整整9天,毛宁一锤定音,中美战机已交手,美方要见中国代表

策略述
2026-02-27 16:12:33
人不会无缘无故患带状疱疹!调查发现:得带状疱疹,离不开这4点

人不会无缘无故患带状疱疹!调查发现:得带状疱疹,离不开这4点

健康科普365
2026-02-27 19:05:05
马克西谈破纪录:感谢76人选我,感谢里弗斯、纳斯、恩比德

马克西谈破纪录:感谢76人选我,感谢里弗斯、纳斯、恩比德

林子说事
2026-02-27 12:37:13
拉夫罗夫:莫斯科将把所有历史上的俄罗斯土地归还其合法家园

拉夫罗夫:莫斯科将把所有历史上的俄罗斯土地归还其合法家园

番茄说史聊
2026-02-22 14:07:52
柬埔寨国王西哈莫尼和太后莫尼列来华

柬埔寨国王西哈莫尼和太后莫尼列来华

新华社
2026-02-27 15:22:08
85花格局又变了!3人上桌、2人下桌,杨幂尴尬,赵丽颖赢麻了

85花格局又变了!3人上桌、2人下桌,杨幂尴尬,赵丽颖赢麻了

查尔菲的笔记
2026-02-10 22:46:16
美股收盘:英伟达再度蒸发万亿市值 金融板块全线重挫

美股收盘:英伟达再度蒸发万亿市值 金融板块全线重挫

财联社
2026-02-28 06:35:10
“艳照门”17年后,她再度翻红,自曝曾3年没拍戏,做了12次试管

“艳照门”17年后,她再度翻红,自曝曾3年没拍戏,做了12次试管

白面书誏
2026-02-26 14:13:40
中戏的招生丑闻,彻底震惊了整个艺术圈!

中戏的招生丑闻,彻底震惊了整个艺术圈!

南权先生
2026-02-24 15:52:36
继母扫大街养我,22年后我成高官,婚礼上岳父望见继母却面色如土

继母扫大街养我,22年后我成高官,婚礼上岳父望见继母却面色如土

兰姐说故事
2025-05-10 17:00:06
俄媒女主持人:中国出兵300万助俄速胜乌克兰

俄媒女主持人:中国出兵300万助俄速胜乌克兰

老媹古装影视解说
2026-02-27 21:31:24
反诈老陈头太铁了!160万大号被封,他用小号继续喊话打假大企业

反诈老陈头太铁了!160万大号被封,他用小号继续喊话打假大企业

火山詩话
2026-02-28 06:12:44
男子乘国际航班被机餐中的鱼刺卡喉 航司提出1000元补偿 当事人:只要书面道歉

男子乘国际航班被机餐中的鱼刺卡喉 航司提出1000元补偿 当事人:只要书面道歉

红星新闻
2026-02-27 18:50:08
李隆基怎能想到,他去世后才13天,软禁他6年的李亨竟因惊吓薨逝

李隆基怎能想到,他去世后才13天,软禁他6年的李亨竟因惊吓薨逝

边城少爷
2026-02-27 23:53:21
崩了!3400 万巨星沦为利物浦最大累赘,复刻法比尼奥式崩盘

崩了!3400 万巨星沦为利物浦最大累赘,复刻法比尼奥式崩盘

澜归序
2026-02-28 05:59:00
玄武门之变,李世民为啥只霸占李元吉之妻,却没霸占李建成老婆?

玄武门之变,李世民为啥只霸占李元吉之妻,却没霸占李建成老婆?

老媹古装影视解说
2026-02-26 20:08:25
巴拿马总统慌了,他猛然发现:强吞中国18亿资产,竟是自寻死路

巴拿马总统慌了,他猛然发现:强吞中国18亿资产,竟是自寻死路

半壁胭脂色
2026-02-28 06:52:52
国乒混双辉煌被彻底终结,背后离不开王励勤的战略调整:拔苗助长

国乒混双辉煌被彻底终结,背后离不开王励勤的战略调整:拔苗助长

杨哥乒乓
2026-02-25 23:17:41
上海警方通报:全市首例!3名"00后"被刑拘!1人为数学系博士

上海警方通报:全市首例!3名"00后"被刑拘!1人为数学系博士

新浪财经
2026-02-27 17:06:34
王楚钦承认赢得侥幸!林诗栋14-16惜败后轰11-3 向鹏遭林昀儒横扫

王楚钦承认赢得侥幸!林诗栋14-16惜败后轰11-3 向鹏遭林昀儒横扫

林子说事
2026-02-27 16:40:31
2026-02-28 08:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14604文章数 66648关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

160万粉丝"反诈老陈"被罚 官方:以反诈为名煽动对立

头条要闻

160万粉丝"反诈老陈"被罚 官方:以反诈为名煽动对立

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

健康
教育
数码
时尚
军事航空

转头就晕的耳石症,能开车上班吗?

教育要闻

刚刚!考研,出分!(附历年国家线)

数码要闻

消息称苹果有两款Studio Display 2显示器:高端机型接口更先进

被章若楠、秦岚带火的鞋子竟然是它?春天这样穿又美又气质!

军事要闻

美国11架F-22隐形战机抵达以色列

无障碍浏览 进入关怀版