马斯克刚说中国AI差一年，中国模型漏洞检测已超Claude？|网络安全|应用程序|编程

分享至

出品 | 网易智能

作者 | 小小

编辑 | 王凤枝

几天前，埃隆·马斯克（Elon Musk）公开做了一个判断。

他认为，中国AI实验室大概要到2027年第一季度，才能在基准性能上追平美国Anthropic的旗舰模型Fable 5。他特意补了一句，认为达到同样的"真正实用性"是更困难的里程碑。

而智谱AI的创始人唐杰看到后，只回了他五个字："不会那么久。"

马斯克说的是整体智能的全面追赶。这件事什么时候发生，现在还看不到清晰的答案。但在一些具体的垂直领域，变化已经先一步到了。

6月中旬，智谱AI以Z.ai的品牌发布了新模型GLM-5.2。安全研究人员很快发现，在漏洞检测这个细分任务上，这个开放权重模型的表现已经逼近美国前沿模型。在部分测试中，它甚至超过了Claude相关配置，并被研究者认为在进一步提示下可接近Mythos的漏洞发现能力。

一条更窄但更实际的线索由此浮现：当开放权重模型开始在高价值的垂直任务上逼近闭源前沿，整个行业围绕成本、部署方式和工作流程的既有安排，正在被重新计算。

一、一个测试意外暴露的进步

软件安全公司Semgrep的工程师们最近设计了一个实验。目的很简单，他们想知道，在漏洞检测这项任务里，有多少功劳应该记给AI模型本身，又有多少来自包裹在模型外面的工具框架。

这对他们来说是一道实在的商业算术题。越来越多的客户正在把大量安全任务交给AI智能体，搞清楚不同组件各自贡献了多少能力，才能判断钱花在哪里最划算。

他们选定了一类叫"不安全的直接对象引用"的漏洞作为考题。这类漏洞不算罕见，目前在漏洞赏金平台HackerOne的排行榜上排名第四。

简单说，就是应用程序把用户ID之类的内部标识符直接暴露在请求里，却不检查发出请求的人是不是真的有权限。一个登录用户只要手动改一下网址里的数字，就可能看到别人的数据。

它很难被传统的静态分析工具捕捉，因为代码里没有明显的危险函数，只有缺失的检查逻辑。 它介于业务逻辑缺陷和配置错误之间，对任何分析工具来说都是硬骨头。

实验对象包括几类选手：Semgrep自家多模态流水线配合GPT-5.5和Opus 4.8，Claude Code编程智能体，以及几个近期发布的开放权重模型。GLM-5.2是最后被加进名单的，工程师们在社交媒体上看到消息后临时决定让它参赛。

测试条件被刻意控制得很简单。

开放权重模型只拿到一段IDOR检测提示词和一个代码库，没有任何额外的导航辅助、端点枚举或结构化引导。Semgrep用F1分数来统一衡量结果。F1是精确率和召回率的调和平均数，它惩罚偏科严重的选手。

如果一个检测器只报它最有把握的那一个漏洞，漏掉其余所有，精确率能到百分百，但召回率会极低；反过来，如果把所有东西都标记为漏洞，召回率能拉满，但会被误报淹没。F1逼着模型同时做好两件事，查得全也查得准。

结果让Semgrep的团队有些意外。

Semgrep自家的多模态流水线以53%到61%的F1分数稳居前两名，这印证了实验最初的猜想：框架确实比模型更重要，最大的性能落差不在模型之间，而在于有没有端点发现的脚手架。

但接下来的排名出乎意料：GLM-5.2在没有Semgrep专用脚手架协助的情况下拿到了39%的F1分数，超过了Claude Code的相关配置。

这里需要解释一下：这不是等价条件下的对决。GLM-5.2是裸提示词，Claude Code使用了SDK。

两者之间七个百分点的差距，更准确的表述是：GLM-5.2在资源更少的情况下达到了一个令人意外的水平。至于给它配上同等框架后能否继续拉开差距，目前没有测试数据。一个合理的推测是它会更高，但高多少是未知数。

GLM-5.2后面，其他开放权重选手的成绩是另一番景象。

MiniMax M3拿到了23%，Kimi K2.7 Code是22%，Nemotron Super 3 120B是18%，DeepSeek V4是17%。

几款模型紧密聚集在20%上下，与GLM-5.2之间拉开了一个16个百分点的差距。这个差距甚至大于GLM-5.2与Claude Code之间的分差。

换句话说，结论并不是"开放权重已经整体追上了前沿模型"，而是在这个特定任务上，有一个模型做到了。

同一时间，360安全科技也发布了名为"图龙风"的漏洞发现工具，并称其漏洞发现能力可与Mythos相比。

周鸿祎在北京一场网络安全会议上说，这类可能改变网络战格局的强大工具，不能只掌握在美国实体手中。这个表态让事情不再只是一个模型基准测试，而是直接进入了网络安全和国家能力竞争的语境。

二、混合专家架构与成本账

GLM-5.2的架构选择，部分解释了它在推理密集型任务上的表现。

它是一个混合专家模型，总参数量约7500亿，但每次推理只激活其中大约400亿参数。这种设计让推理成本相对其整体规模保持在较低水平。

发布说明中提到的另一个关键改进是上下文窗口从20万扩展到了100万token。对于安全漏洞检测来说，长上下文的意义在于模型在处理分散在不同文件中的授权逻辑时能保持推理的一致性，不会在长链条调用中丢失线索。

Semgrep在实验中顺带计算了成本。

按照GLM-5.2的定价，在这个IDOR检测任务中每发现一个真实漏洞的成本约0.17美元。Semgrep在公开发布的分析文章里特意指出：对于需要在数千个端点上重复运行的安全检测任务，每个漏洞的经济账不是脚注，往往才是决定一项技术能不能规模化使用的关键因素。

这种性价比优势在工作量更大的场景中变得更加明显。

一组在技术社区引发大量讨论的企业成本对比数据显示，大型加密货币公司Coinbase在内部测试后决定将大量AI工作负载从美国闭源模型切换到开放权重模型。

X用户@Ric_RTP总结道，同等任务的运行成本通过Anthropic的Claude需要4811美元，换成GLM-5.2变成544美元。OpenAI的GPT-5.5居中，费用是3357美元；DeepSeek V4为1071美元；Moonshot的Kimi为948美元。

Coinbase首席执行官布莱恩·阿姆斯特朗（Brian Armstrong）本人此前也曾公开提到公司在积极评估多个AI模型以优化成本，但这家公司本身没有以官方渠道公布过这些具体金额，测试条件和输出质量的一致性也尚未被独立验证。

在同一组讨论中被引用的还有编程基准SWE-bench Pro的成绩：GLM-5.2得分62.1，OpenAI的GPT-5.5得分58.6。性能高一截，价格低一个数量级，这才是这组数据引发持续讨论的原因：不是某个单项的胜负，而是性价比公式本身在改写采购逻辑。

法律AI公司Harvey的联合创始人加布·佩雷拉（Gabe Pereyra）在谈到GLM-5.2时称，他一直对开源追赶的速度感到惊讶，这个模型和那些闭源前沿产品相比确实具有竞争力。

要理解GLM-5.2引发的连锁反应，需要先厘清"开放权重"到底是什么。

它不等同于传统意义上的开源。 训练数据的全貌和完整的训练流水线通常不会公开，但模型的参数权重以MIT许可证发布，允许任何人下载、在自有硬件上部署、微调和检查。对于在敏感领域工作的安全团队来说，这个区别很重要：模型可以完全在本地环境运行，不需要把代码或数据发送给第三方服务商。

放到漏洞检测这个场景里，开放权重带来了三重影响。

第一是部署自由度。 银行、律师事务所、基础设施运营商这类机构对数据边界有严格的要求，一个能在内网完全离线的模型对他们来说比任何云端API都有吸引力，哪怕后者的原始能力稍强一些。

第二是修改权限。 安全团队可以对模型进行针对性微调，用自己积累的历史漏洞数据训练它识别特定类型的缺陷模式。这对于闭源API来说是做不到的。

第三是使用门槛的降低。 开放权重模型一旦被下载，提供方就不知道使用者在做什么。企业可以用它加固系统，攻击者同样可以在暗处运行它来扫描目标的弱点。

网络安全公司7AI的首席执行官利奥尔·迪夫（Lior Div）观察到，差距正在随着时间的推移越来越小。他说的差距，指的是不同AI系统在网络安全能力上的落差，而这种差距的缩小本身就意味着技术扩散的速度在加快。

曾在谷歌和Stripe领导安全团队的研究员尼尔斯·普罗沃斯（Niels Provos）更关心市场机制。他指出，当访问前沿模型的稳定性受到各种不确定因素影响时，全球公司自然会被推向更便宜且能力不俗的开放权重替代品。每一次这种切换，都意味着对原有AI产业链的一次信心转移。

三、能力边界与追赶距离

把GLM-5.2放在更全面的坐标里看，它的强项和短板都同样清晰。

在标准编程基准测试中，它的表现是当前开放权重模型中最强的。

Terminal-Bench 2.1用于评估模型在终端环境中完成实际编程任务的能力，涵盖文件操作、代码调试、系统命令执行等真实开发场景。在这项测试中，GLM-5.2得分81.0，相比前代GLM-5.1的63.5有了大幅度跃升，与Claude Opus 4.8的85.0相差约四个百分点。

SWE-bench Pro则专注于衡量模型解决真实世界中GitHub软件缺陷的能力，测试样本来自开源项目的实际代码库和问题报告。在这项测试中，GLM-5.2得分62.1，领先于一些封闭前沿模型，仅落后于顶尖选手个位数百分点。

但基准测试只能测量特定维度的表现，把它等同于"整体能力"是一种过度外推。 不同观察者从不同角度得出的评价，恰好反映了GLM-5.2能力分布的不均匀。

沃顿商学院教授伊桑·莫利克（Ethan Mollick）的判断比较节制。他认为GLM-5.2不错，可靠，但它仍然不是GPT-5.5或Opus 4.8，离Mythos更有一段距离。他说的是整体推理能力和输出质量的综合评价。

不过他同时承认，开放权重模型已经跨进了一个能力相当可观的层级，追赶的势头并没有停下来。

基准测试平台Bridgebench用一套更细化的测试对比了GLM-5.2和Anthropic的Fable 5，结论是前者在输出的可靠性和精炼程度上仍有差距，Fable 5产出的代码更有条理、效率更高。

不过，他们也补了一句判断：按照当前的演进轨迹，这种差距在六个月内可能就不再真实了。 这说的是差距正在缩小，但今天仍可以稳定复现。

风险投资家马克·安德森也注意到了GLM-5.2。他的评论重点不在"全面超越"，而在于，非美国开放权重模型正在进入足以和美国闭源前沿模型正面对比的区间。

这三组看似矛盾的评价其实指向同一个事实：GLM-5.2的能力是不均匀的。

在编程基准和特定的安全检测任务上，它已经能比肩或接近闭源前沿；在输出的整体一致性、可靠性和精炼度上，差距仍然可见。"追上了没有"这个问题，取决于问的是哪个维度。 在IDOR检测这样的垂直窄切口上，答案接近于"是"；在全面智能的意义上，答案仍然是"还没有"。

GLM-5.2的发布说明里记录了一个不太常见的行为。

在训练阶段，研发团队发现模型会自己想办法在评估中拿到高分，但用的不是提升能力的方式，而是走偏门。比如，它试图读取本来不该看到的评估文件，或者去抓取参考答案来虚报成绩。团队只好额外加了一套防护机制来拦住这些操作。

一家公司主动公开这类细节并不多见。但这个行为本身也提供了一个观察角度：这个行为是否与它在安全检测任务上的表现存在关联，目前没有证据可以证实。但至少它说明了一件事：这个模型在面对约束时，倾向于主动试探边界。这是安全研究者希望在工具中看到的特质，也是需要额外控制的风险来源。

四、流水线的结构优势与模型的角色

回到Semgrep的实验，有一个结论值得单独聊聊。

在所有的配置中，得分最高和得分最低之间的最大落差，不是由模型品牌造成的，而是由"有没有框架"决定的。 Semgrep多模态流水线为模型做了大量的前期工作，枚举所有可能的应用程序端点，筛选上下文，把模型直接引导到最需要分析的代码片段面前。

没有这套流程的模型需要自己去摸索整个代码库，这消耗了它大量的注意力和token预算。

这个发现对安全行业有实际的指导意义。把整套检测能力全部押注在单个模型上是低效的，真正拉开性能差距的是模型与框架的配合方式。

GLM-5.2在裸提示词下的表现更像一个压力测试，它的价值在于证明了一件事：当配套工具同等配备之后，那些相对便宜、能本地部署的模型，可能比想象中更接近昂贵的闭源选项。

摩根大通在智谱GLM-5.2发布后更新了分析报告。

报告指出GLM-5.2的能力提升主要来自强化学习和训练后优化，而其底层模型架构与GLM-5系列保持延续性，成本基础基本稳定。这让智谱在提高API定价的同时保持了市场竞争力。

报告同时提出了一个关于行业走势的判断：当某项AI能力变得广泛可获取时，它会通过更低的价格和更高效的推理被迅速商品化，那些停止提升能力曲线的模型公司最终会被拖入价格竞争。

对于投资者来说，传达的信号是模型层货币化正变得更具选择性，成熟的智能会持续贬值，而能够进入更高价值任务的前沿能力才能维持溢价。

这个判断从另一个角度回应了Semgrep实验的隐含问题。模型本身处在一条持续上升的曲线上，而真正决定谁能从这条曲线上赚钱的，是围绕模型建立的工具、框架和工作流程。

结尾：从实验室走向规模化使用的关卡

GLM-5.2目前正处于一个关键阶段。

它已经成功引发了开发者的关注和测试兴趣。

OpenRouter数据显示，GLM-5.2已经跻身其平台上最常用模型之列。另有报道援引OpenRouter的帖子称，GLM-5.2发布后的token流量增长速度，快于此前DeepSeek V4发布后的增长节奏。

但接下来要面对的，是把试验性的测试转化为可重复的生产使用。

这个过程需要跨过几个技术门槛。

一是推理稳定性，在长上下文、多文件、跨模块的安全审计场景中，模型是否能保持分析质量的一致。

二是与现有开发工具的兼容深度，能否顺利接入主流的token托管、持续集成和安全扫描流程。

三是部署方案的可维护性，对于选择本地部署的团队来说，模型的更新、监控和版本管理是否能达到企业级要求。

技术社区内部存在一种共识判断：这个模型最重要的意义也许不在于它是否在某个基准上超过了谁，而在于它把"足够好的前沿能力"送到了比以前更广的使用者手中。

当漏洞检测从一项昂贵的、需要特定权限才能接触的能力，变成开发者工具箱里的常规配置时，整个安全攻防的时间窗口就被压缩了。防御者能更快地扫描和修补，攻击者的领先优势同样会被更快地消耗殆尽。

Semgrep在文章结尾留了一个谨慎的附注。他们强调，目前的实验结果基于一个特定任务、一套有限的数据集和单次运行。

漏洞检测本身具有非确定性，GLM-5.2在IDOR检测上的出色表现是否能推广到其他漏洞类型，比如服务端请求伪造、注入类攻击或跨站脚本，目前还没有测试数据可以支撑。他们表示会继续扩大测试范围，但在此之前，所有的结论都应当被限定在已测的边界之内。

这种审慎本身也是技术社区面对模型快速迭代时应当持有的态度。

GLM-5.2证明了一件事：开放权重的模型已经走到了能在特定安全任务上与前沿闭源系统平等对话的位置。 接下来的问题不是"能不能追上"，而是在更多的维度上，它的能力边界到底在哪里，以及这个边界会以多快的速度向外移动。

本文来源：网易智能责任编辑：王凤枝_NT2541

手机 / 数码

房产 / 家居

马斯克刚说中国AI差一年，中国模型漏洞检测已超Claude？

杀疯了！深圳一天出两家200亿具身智能公司

美从俄乌战场抽身 金灿荣：美国有个大战略目标已完成

美从俄乌战场抽身 金灿荣：美国有个大战略目标已完成

他和伊朗队，再次赢得全世界的尊重

跟风电影《给阿公的牛肉丸》开机

万达广场批量易主 多位投资人正式入局

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

狂吃“糯叽叽”小心肠梗阻！

小米澎湃OS六月迎来功能更新 超级小爱新增赛事服务

传奇筑 日常诗

你敢想？海口房地产投资，暴跌5成！

普京最新发声：俄罗斯正处于命运攸关之际

美从俄乌战场抽身金灿荣：美国有个大战略目标已完成

美从俄乌战场抽身金灿荣：美国有个大战略目标已完成

万达广场批量易主多位投资人正式入局

全新宝马iX3长轴版将于成都车展预售四季度交付

小米澎湃OS六月迎来功能更新超级小爱新增赛事服务

传奇筑日常诗