腾讯联合多所名校重磅发布：AI写代码竟然存在严重安全漏洞|正确性|知名企业

腾讯联合多所名校重磅发布：AI写代码竟然存在严重安全漏洞

2025-09-06 13:21:06　来源: 科技行者

天津举报

分享至

这项由腾讯AI实验室联合北京大学、复旦大学、上海交通大学、清华大学、浙江大学、中科院信息工程研究所、新加坡管理大学等多所顶级院校共同完成的重磅研究，于2025年8月25日发表在arXiv预印本平台上。这是全球首个专门评估AI代码生成安全性的仓库级基准测试，有兴趣深入了解的读者可以通过论文编号arXiv:2508.18106v1访问完整论文。

当AI开始大规模参与软件开发时，一个令人担忧的现象悄然浮现：这些聪明的AI助手虽然能写出看起来完美的代码，但却可能无意中埋下了严重的安全隐患。就像一位技艺精湛的建筑师能够设计出美轮美奂的大厦，但如果忽略了防火通道的设计，再华丽的建筑也可能成为安全威胁。

研究团队发现，目前AI代码生成领域存在一个严重问题：现有的测试方法就像用放大镜检查建筑材料的质量，却忽略了整座建筑的结构安全。大多数现有基准只关注代码片段的功能正确性，就像只检查每块砖头是否完好，却不考虑整体建筑的抗震性能。更糟糕的是，这些测试方法往往依赖不稳定的评估手段，就如同用一把时而准确时而偏差的尺子来测量建筑尺寸，结果自然难以信任。

为了解决这个关键问题，研究团队开发了名为A.S.E（AI Code Generation Security Evaluation）的创新性基准测试系统。这套系统就像一位经验丰富的建筑安全检查员，不仅要检查每个房间的装修质量，更要评估整座建筑的结构安全、消防系统和抗灾能力。

A.S.E基准的独特之处在于它采用了真实世界的软件项目作为测试材料。研究团队精心筛选了120个来自实际开源项目的代码仓库，这些项目都曾经历过真实的安全漏洞攻击并留下了详细的修复记录。就像建筑安全专家会研究那些曾经发生过事故的建筑案例一样，这种方法能够最真实地反映AI在面对复杂现实环境时的表现。

在构建测试环境时，研究团队面临一个微妙的平衡问题。一方面，他们需要保持代码的真实性和完整性，确保测试环境与实际开发环境高度相似；另一方面，他们又必须防止AI模型简单地"背诵"训练数据中已见过的代码。为此，团队采用了巧妙的"语义变换"技术，就像将建筑的外观装饰稍作调整，但保持内部结构和功能完全不变，这样既避免了"作弊"的可能，又保证了测试的有效性。

整个评估过程就像一场全面的建筑安全检查。当AI模型接到任务时，它需要在一个被故意"破坏"了关键安全部件的建筑项目中，准确识别问题并提供完整的修复方案。这不仅要求AI理解代码的基本功能，更要求它能够把握整个项目的依赖关系、构建系统和跨文件交互，就如同安全检查员需要同时了解电路系统、水管布局和结构承重的复杂关系。

为了确保评估结果的可靠性和可重复性，研究团队开发了一套基于Docker容器的自动化评估系统。这套系统就像一个标准化的检验实验室，每次测试都在完全相同的环境中进行，确保结果不受外界因素干扰。更重要的是，评估标准采用了专家定制的规则而非主观判断，就像使用精密仪器而非肉眼观察来检测建筑材料的强度。

评估维度涵盖了三个关键方面，就像全面评估一座建筑的安全性需要从多个角度考量。首先是安全性评估，检查AI生成的代码是否真正消除了原有漏洞，同时没有引入新的安全隐患，这占据了总分的60%权重，体现了安全性的核心地位。其次是质量评估，验证生成的代码是否能够正确编译和运行，占30%权重。最后是稳定性评估，考察AI在多次运行中是否能产生一致的结果，占10%权重。

研究团队对26个当前最先进的大语言模型进行了全面测试，包括18个商业模型和8个开源模型。测试范围覆盖了Claude、GPT、Qwen、DeepSeek等主流AI助手，每个模型都要接受三轮独立测试以确保结果的稳定性。

测试结果令人深思。在这场"建筑安全大考"中，表现最佳的Claude-3.7-Sonnet获得了63.01的总分，但即便是这位"优等生"，其安全得分也只有46.72分，远未达到50分的及格线。这意味着即使是最先进的AI模型，在面对复杂的真实项目安全问题时，仍然存在显著的能力缺陷。

更有趣的是，研究揭示了一个意外现象：那些标榜"慢思考"、"深度推理"的AI模型，在安全代码生成方面的表现反而不如采用"快思考"策略的同类产品。就像有时候凭借直觉和经验快速做出的决策，可能比经过复杂分析得出的结论更加准确。Claude-3.7-Sonnet-Thinking的安全得分为44.65分，略低于其"快思考"版本的46.72分，这一发现颠覆了人们对"思考时间更长必然结果更好"的传统认知。

在开源与商业模型的对比中，研究发现了令人鼓舞的结果。开源模型Qwen3-235B-A22B-Instruct在安全性方面表现出色，得分达到48.03分，甚至超过了Claude-3.7-Sonnet的46.72分，成为安全性能最强的模型。这表明在AI代码安全领域，开源模型已经具备了与顶级商业产品竞争的实力，这对于促进技术普及和降低使用门槛具有重要意义。

从漏洞类型分析来看，不同类型的安全问题对AI模型构成了不同程度的挑战。路径遍历漏洞被证明是最难处理的安全问题，即便是表现最好的模型在这类问题上的得分也不到50分。这类漏洞涉及文件系统访问控制，需要AI深度理解文件路径构建和权限管理的复杂逻辑。相比之下，跨站脚本攻击（XSS）和命令注入等问题虽然同样复杂，但AI模型的处理能力相对较强。

编程语言的差异也影响着AI的表现。在测试的五种编程语言中，PHP项目占据了50%的比例，这反映了Web开发中PHP的广泛应用，同时也暴露了PHP项目中安全漏洞的高发态势。Python、Go、JavaScript和Java项目的分布相对均匀，为跨语言的AI安全能力评估提供了良好基础。

通过对Claude-3.7-Sonnet的详细案例分析，研究团队发现了AI代码生成中的一个重要模式。在处理SQL注入和路径遍历等复杂安全问题时，AI往往能够生成语法正确且功能完整的代码，但这些代码中仍然存在安全隐患。就像一个技艺娴熟的木匠能够制作出外观精美的家具，但可能忽略了防虫防潮的处理。这种现象表明，当前的AI模型在代码正确性和安全性之间存在明显的能力不平衡。

研究还发现了架构设计对AI安全性能的影响。采用混合专家模型（MoE）架构的AI系统普遍表现更好，这类系统就像拥有多个专业领域专家的咨询团队，能够针对不同类型的安全问题调用相应的专业知识。相比之下，传统的密集型模型虽然参数众多，但在处理安全问题的专业性上略显不足。

从稳定性角度看，一些模型展现出了有趣的特征。GPT-o3系列模型在生成稳定性方面表现优异，多次运行的结果高度一致，但这种稳定性却伴随着较低的安全性和代码质量。这就像一台精确的机器能够重复产生相同的产品，但产品本身可能存在设计缺陷。这一发现提醒我们，在评估AI系统时不能仅仅关注单一维度的表现。

研究团队通过对比原始测试和变异测试的结果，验证了A.S.E基准的鲁棒性。两种测试条件下的结果高度一致，这证明了基准测试不会因为代码的表面变化而产生误判，同时也确认了测试中不存在数据泄露问题。这种严谨性为基准的可信度和实用性提供了强有力的保证。

A.S.E基准的技术创新体现在多个方面。首先，它建立了从真实CVE漏洞到测试任务的完整映射关系，确保每个测试场景都对应实际存在的安全威胁。其次，通过精心设计的语义保持变换技术，在避免数据污染的同时保持了代码的真实性。最重要的是，整套评估流程实现了完全自动化和容器化，任何研究者都可以在相同条件下重现实验结果。

这项研究的意义远不止于提供了一个测试基准。它揭示了当前AI代码生成技术的真实能力边界，为AI辅助软件开发的安全使用提供了重要指导。研究结果表明，虽然AI在代码生成方面已经取得了显著进展，但在安全性这一关键维度上仍有很大提升空间。这提醒开发者在使用AI工具时，必须保持足够的安全意识和验证措施。

对于AI模型开发者而言，这项研究指出了明确的改进方向。提升AI对安全漏洞的识别和修复能力，特别是在复杂的多文件、多模块项目中的安全推理能力，应当成为未来研发的重点。同时，如何在保持代码功能正确性的同时增强安全性，也是一个值得深入探索的技术挑战。

从更广阔的视角看，A.S.E基准的发布标志着AI代码生成评估进入了一个新的阶段。过去那种仅关注功能实现的评估方式已经无法满足实际应用的需求，安全性评估将成为AI代码工具发展的重要驱动力。这种变化反映了整个行业对AI代码质量要求的不断提升，也预示着未来会有更多专注于特定维度的专业化评估基准出现。

说到底，这项研究就像给AI代码生成领域安装了一面"安全镜子"，让我们清楚地看到了当前技术的真实面貌。虽然镜子中的影像可能不够完美，但正是这种客观的审视才能推动技术向更加安全、可靠的方向发展。归根结底，AI工具的价值不仅在于能够快速生成代码，更在于能够生成既正确又安全的代码。只有在安全性得到充分保障的前提下，AI才能真正成为软件开发者的可靠伙伴，而不是潜在的安全隐患制造者。

这项研究为整个行业提供了一个重要的警示和方向指引。对于正在或计划使用AI代码生成工具的开发者来说，这些发现强调了人工审查和安全验证的不可替代性。对于AI技术研发者而言，如何在保持生成效率的同时大幅提升安全性，将成为下一阶段竞争的关键战场。而对于整个软件行业来说，建立更加全面、严格的AI代码安全评估标准，已经成为迫在眉睫的现实需求。

Q&A

Q1：A.S.E基准测试是什么？它和传统的代码测试有什么不同？

A：A.S.E是全球首个专门评估AI代码生成安全性的仓库级基准测试系统。与传统只关注代码片段功能的测试不同，A.S.E使用完整的真实项目进行测试，就像检查整座建筑的安全性而不只是检查单个房间。它不仅看代码能否运行，更重要的是检查代码是否安全，能否抵御黑客攻击。

Q2：为什么AI写的代码看起来正确但可能不安全？

A：这就像一个技艺精湛的建筑师能设计出美观的建筑，但可能忽略防火通道一样。当前AI模型在学习时更多关注代码的功能实现，对安全性的理解相对不足。研究发现，即使是最先进的Claude-3.7-Sonnet，虽然代码质量得分达91.58分，但安全得分只有46.72分，说明AI在代码正确性和安全性之间存在明显不平衡。

Q3：哪些AI模型在代码安全方面表现最好？开源模型靠谱吗？

A：在综合表现上，Claude-3.7-Sonnet排名第一，但在纯安全性方面，开源模型Qwen3-235B-A22B-Instruct表现最佳，安全得分达48.03分。研究发现开源模型在安全性方面已经具备与顶级商业产品竞争的实力，差距并不大。不过需要注意的是，即使是表现最好的模型，安全得分也未达到50分及格线。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.