网易首页 > 网易号 > 正文 申请入驻

腾讯联合多所名校重磅发布:AI写代码竟然存在严重安全漏洞

0
分享至

这项由腾讯AI实验室联合北京大学、复旦大学、上海交通大学、清华大学、浙江大学、中科院信息工程研究所、新加坡管理大学等多所顶级院校共同完成的重磅研究,于2025年8月25日发表在arXiv预印本平台上。这是全球首个专门评估AI代码生成安全性的仓库级基准测试,有兴趣深入了解的读者可以通过论文编号arXiv:2508.18106v1访问完整论文。

当AI开始大规模参与软件开发时,一个令人担忧的现象悄然浮现:这些聪明的AI助手虽然能写出看起来完美的代码,但却可能无意中埋下了严重的安全隐患。就像一位技艺精湛的建筑师能够设计出美轮美奂的大厦,但如果忽略了防火通道的设计,再华丽的建筑也可能成为安全威胁。

研究团队发现,目前AI代码生成领域存在一个严重问题:现有的测试方法就像用放大镜检查建筑材料的质量,却忽略了整座建筑的结构安全。大多数现有基准只关注代码片段的功能正确性,就像只检查每块砖头是否完好,却不考虑整体建筑的抗震性能。更糟糕的是,这些测试方法往往依赖不稳定的评估手段,就如同用一把时而准确时而偏差的尺子来测量建筑尺寸,结果自然难以信任。

为了解决这个关键问题,研究团队开发了名为A.S.E(AI Code Generation Security Evaluation)的创新性基准测试系统。这套系统就像一位经验丰富的建筑安全检查员,不仅要检查每个房间的装修质量,更要评估整座建筑的结构安全、消防系统和抗灾能力。

A.S.E基准的独特之处在于它采用了真实世界的软件项目作为测试材料。研究团队精心筛选了120个来自实际开源项目的代码仓库,这些项目都曾经历过真实的安全漏洞攻击并留下了详细的修复记录。就像建筑安全专家会研究那些曾经发生过事故的建筑案例一样,这种方法能够最真实地反映AI在面对复杂现实环境时的表现。

在构建测试环境时,研究团队面临一个微妙的平衡问题。一方面,他们需要保持代码的真实性和完整性,确保测试环境与实际开发环境高度相似;另一方面,他们又必须防止AI模型简单地"背诵"训练数据中已见过的代码。为此,团队采用了巧妙的"语义变换"技术,就像将建筑的外观装饰稍作调整,但保持内部结构和功能完全不变,这样既避免了"作弊"的可能,又保证了测试的有效性。

整个评估过程就像一场全面的建筑安全检查。当AI模型接到任务时,它需要在一个被故意"破坏"了关键安全部件的建筑项目中,准确识别问题并提供完整的修复方案。这不仅要求AI理解代码的基本功能,更要求它能够把握整个项目的依赖关系、构建系统和跨文件交互,就如同安全检查员需要同时了解电路系统、水管布局和结构承重的复杂关系。

为了确保评估结果的可靠性和可重复性,研究团队开发了一套基于Docker容器的自动化评估系统。这套系统就像一个标准化的检验实验室,每次测试都在完全相同的环境中进行,确保结果不受外界因素干扰。更重要的是,评估标准采用了专家定制的规则而非主观判断,就像使用精密仪器而非肉眼观察来检测建筑材料的强度。

评估维度涵盖了三个关键方面,就像全面评估一座建筑的安全性需要从多个角度考量。首先是安全性评估,检查AI生成的代码是否真正消除了原有漏洞,同时没有引入新的安全隐患,这占据了总分的60%权重,体现了安全性的核心地位。其次是质量评估,验证生成的代码是否能够正确编译和运行,占30%权重。最后是稳定性评估,考察AI在多次运行中是否能产生一致的结果,占10%权重。

研究团队对26个当前最先进的大语言模型进行了全面测试,包括18个商业模型和8个开源模型。测试范围覆盖了Claude、GPT、Qwen、DeepSeek等主流AI助手,每个模型都要接受三轮独立测试以确保结果的稳定性。

测试结果令人深思。在这场"建筑安全大考"中,表现最佳的Claude-3.7-Sonnet获得了63.01的总分,但即便是这位"优等生",其安全得分也只有46.72分,远未达到50分的及格线。这意味着即使是最先进的AI模型,在面对复杂的真实项目安全问题时,仍然存在显著的能力缺陷。

更有趣的是,研究揭示了一个意外现象:那些标榜"慢思考"、"深度推理"的AI模型,在安全代码生成方面的表现反而不如采用"快思考"策略的同类产品。就像有时候凭借直觉和经验快速做出的决策,可能比经过复杂分析得出的结论更加准确。Claude-3.7-Sonnet-Thinking的安全得分为44.65分,略低于其"快思考"版本的46.72分,这一发现颠覆了人们对"思考时间更长必然结果更好"的传统认知。

在开源与商业模型的对比中,研究发现了令人鼓舞的结果。开源模型Qwen3-235B-A22B-Instruct在安全性方面表现出色,得分达到48.03分,甚至超过了Claude-3.7-Sonnet的46.72分,成为安全性能最强的模型。这表明在AI代码安全领域,开源模型已经具备了与顶级商业产品竞争的实力,这对于促进技术普及和降低使用门槛具有重要意义。

从漏洞类型分析来看,不同类型的安全问题对AI模型构成了不同程度的挑战。路径遍历漏洞被证明是最难处理的安全问题,即便是表现最好的模型在这类问题上的得分也不到50分。这类漏洞涉及文件系统访问控制,需要AI深度理解文件路径构建和权限管理的复杂逻辑。相比之下,跨站脚本攻击(XSS)和命令注入等问题虽然同样复杂,但AI模型的处理能力相对较强。

编程语言的差异也影响着AI的表现。在测试的五种编程语言中,PHP项目占据了50%的比例,这反映了Web开发中PHP的广泛应用,同时也暴露了PHP项目中安全漏洞的高发态势。Python、Go、JavaScript和Java项目的分布相对均匀,为跨语言的AI安全能力评估提供了良好基础。

通过对Claude-3.7-Sonnet的详细案例分析,研究团队发现了AI代码生成中的一个重要模式。在处理SQL注入和路径遍历等复杂安全问题时,AI往往能够生成语法正确且功能完整的代码,但这些代码中仍然存在安全隐患。就像一个技艺娴熟的木匠能够制作出外观精美的家具,但可能忽略了防虫防潮的处理。这种现象表明,当前的AI模型在代码正确性和安全性之间存在明显的能力不平衡。

研究还发现了架构设计对AI安全性能的影响。采用混合专家模型(MoE)架构的AI系统普遍表现更好,这类系统就像拥有多个专业领域专家的咨询团队,能够针对不同类型的安全问题调用相应的专业知识。相比之下,传统的密集型模型虽然参数众多,但在处理安全问题的专业性上略显不足。

从稳定性角度看,一些模型展现出了有趣的特征。GPT-o3系列模型在生成稳定性方面表现优异,多次运行的结果高度一致,但这种稳定性却伴随着较低的安全性和代码质量。这就像一台精确的机器能够重复产生相同的产品,但产品本身可能存在设计缺陷。这一发现提醒我们,在评估AI系统时不能仅仅关注单一维度的表现。

研究团队通过对比原始测试和变异测试的结果,验证了A.S.E基准的鲁棒性。两种测试条件下的结果高度一致,这证明了基准测试不会因为代码的表面变化而产生误判,同时也确认了测试中不存在数据泄露问题。这种严谨性为基准的可信度和实用性提供了强有力的保证。

A.S.E基准的技术创新体现在多个方面。首先,它建立了从真实CVE漏洞到测试任务的完整映射关系,确保每个测试场景都对应实际存在的安全威胁。其次,通过精心设计的语义保持变换技术,在避免数据污染的同时保持了代码的真实性。最重要的是,整套评估流程实现了完全自动化和容器化,任何研究者都可以在相同条件下重现实验结果。

这项研究的意义远不止于提供了一个测试基准。它揭示了当前AI代码生成技术的真实能力边界,为AI辅助软件开发的安全使用提供了重要指导。研究结果表明,虽然AI在代码生成方面已经取得了显著进展,但在安全性这一关键维度上仍有很大提升空间。这提醒开发者在使用AI工具时,必须保持足够的安全意识和验证措施。

对于AI模型开发者而言,这项研究指出了明确的改进方向。提升AI对安全漏洞的识别和修复能力,特别是在复杂的多文件、多模块项目中的安全推理能力,应当成为未来研发的重点。同时,如何在保持代码功能正确性的同时增强安全性,也是一个值得深入探索的技术挑战。

从更广阔的视角看,A.S.E基准的发布标志着AI代码生成评估进入了一个新的阶段。过去那种仅关注功能实现的评估方式已经无法满足实际应用的需求,安全性评估将成为AI代码工具发展的重要驱动力。这种变化反映了整个行业对AI代码质量要求的不断提升,也预示着未来会有更多专注于特定维度的专业化评估基准出现。

说到底,这项研究就像给AI代码生成领域安装了一面"安全镜子",让我们清楚地看到了当前技术的真实面貌。虽然镜子中的影像可能不够完美,但正是这种客观的审视才能推动技术向更加安全、可靠的方向发展。归根结底,AI工具的价值不仅在于能够快速生成代码,更在于能够生成既正确又安全的代码。只有在安全性得到充分保障的前提下,AI才能真正成为软件开发者的可靠伙伴,而不是潜在的安全隐患制造者。

这项研究为整个行业提供了一个重要的警示和方向指引。对于正在或计划使用AI代码生成工具的开发者来说,这些发现强调了人工审查和安全验证的不可替代性。对于AI技术研发者而言,如何在保持生成效率的同时大幅提升安全性,将成为下一阶段竞争的关键战场。而对于整个软件行业来说,建立更加全面、严格的AI代码安全评估标准,已经成为迫在眉睫的现实需求。

Q&A

Q1:A.S.E基准测试是什么?它和传统的代码测试有什么不同?

A:A.S.E是全球首个专门评估AI代码生成安全性的仓库级基准测试系统。与传统只关注代码片段功能的测试不同,A.S.E使用完整的真实项目进行测试,就像检查整座建筑的安全性而不只是检查单个房间。它不仅看代码能否运行,更重要的是检查代码是否安全,能否抵御黑客攻击。

Q2:为什么AI写的代码看起来正确但可能不安全?

A:这就像一个技艺精湛的建筑师能设计出美观的建筑,但可能忽略防火通道一样。当前AI模型在学习时更多关注代码的功能实现,对安全性的理解相对不足。研究发现,即使是最先进的Claude-3.7-Sonnet,虽然代码质量得分达91.58分,但安全得分只有46.72分,说明AI在代码正确性和安全性之间存在明显不平衡。

Q3:哪些AI模型在代码安全方面表现最好?开源模型靠谱吗?

A:在综合表现上,Claude-3.7-Sonnet排名第一,但在纯安全性方面,开源模型Qwen3-235B-A22B-Instruct表现最佳,安全得分达48.03分。研究发现开源模型在安全性方面已经具备与顶级商业产品竞争的实力,差距并不大。不过需要注意的是,即使是表现最好的模型,安全得分也未达到50分及格线。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
看了姚晨的旧照,才明白凌潇肃曹郁为啥相继沦陷了,嘴大不是缺陷

看了姚晨的旧照,才明白凌潇肃曹郁为啥相继沦陷了,嘴大不是缺陷

八斗小先生
2026-03-20 15:24:18
通用丰田等联名致函:敦促美国继续限制进口中国车

通用丰田等联名致函:敦促美国继续限制进口中国车

快科技
2026-03-24 11:18:08
日本一留学生的帖子爆火!日本网友对不同国家和颜值的外国留学生,态度竟然差这么多?!

日本一留学生的帖子爆火!日本网友对不同国家和颜值的外国留学生,态度竟然差这么多?!

东京新青年
2026-03-25 18:41:06
泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

TVB的四小花
2026-03-26 12:18:20
张雪峰给女儿的底气:名字变商标,这就是中国式父爱!

张雪峰给女儿的底气:名字变商标,这就是中国式父爱!

喜欢历史的阿繁
2026-03-26 13:06:57
14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

红星新闻
2026-03-24 23:25:19
张雪峰猝死后,卢克文也不敢跑步了,曾每年跑1千公里,身体垮了

张雪峰猝死后,卢克文也不敢跑步了,曾每年跑1千公里,身体垮了

水晶的视界
2026-03-26 09:28:29
辞职刚4天,通报就来了:这位副总,想跑没跑掉

辞职刚4天,通报就来了:这位副总,想跑没跑掉

老鹰哥
2026-03-25 12:17:52
4月越忙越富的三生肖曝光:好运风口已至,一路上坡顺风顺水!

4月越忙越富的三生肖曝光:好运风口已至,一路上坡顺风顺水!

毅谈生肖
2026-03-26 10:54:48
养生|大便后你用几张纸?用纸量判断你的身体情况

养生|大便后你用几张纸?用纸量判断你的身体情况

A活着
2026-03-24 19:25:23
省政府领导班子密集调整,省委常委任常务副省长

省政府领导班子密集调整,省委常委任常务副省长

上观新闻
2026-03-25 15:46:23
精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

深度报
2026-02-11 23:35:03
1950年女地下党被捕,枪毙前高呼:我可以招,但我要见哥哥

1950年女地下党被捕,枪毙前高呼:我可以招,但我要见哥哥

云霄纪史观
2026-03-26 11:04:00
兄弟俩同出宁海路,一个资产清零,一个负债率28%稳坐前500强

兄弟俩同出宁海路,一个资产清零,一个负债率28%稳坐前500强

花小猫的美食日常
2026-03-26 07:41:46
火箭3将成大麻烦!杜兰特难破包夹,谢泼德不稳,伊森已成毒瘤!

火箭3将成大麻烦!杜兰特难破包夹,谢泼德不稳,伊森已成毒瘤!

篮球资讯达人
2026-03-26 13:25:09
巫启贤曝综艺剧本,如若拆穿节目组要赔钱,只能装作认不出李克勤

巫启贤曝综艺剧本,如若拆穿节目组要赔钱,只能装作认不出李克勤

歪歌社团
2026-03-24 04:08:26
志愿军功臣行刑时朝鲜姑娘冲上前,彭总感慨:让他们在一起吧

志愿军功臣行刑时朝鲜姑娘冲上前,彭总感慨:让他们在一起吧

老范谈史
2026-03-23 17:49:13
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
女大学生住院做检查,报告竟是假的!珠海中山五院等多方回应

女大学生住院做检查,报告竟是假的!珠海中山五院等多方回应

南方都市报
2026-03-24 12:42:25
2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

复转这些年
2026-03-26 09:26:17
2026-03-26 13:44:50
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7745文章数 556关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
房产
数码
手机
公开课

家居要闻

傍海而居 静观蝴蝶海

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

数码要闻

Intel史上最先进!酷睿Ultra 300系列vPro平台发布

手机要闻

三星One UI 9前瞻:小部件更方正、Now Bar动画更丝滑

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版