智谱GLM-5.2开源炸场第二天，一份230页的论文给所有人泼了冷水|翻译|算法|代码|编程|程序员|glm

智谱GLM-5.2开源炸场第二天，一份230页的论文给所有人泼了冷水

分享至

6月17日，智谱AI开源了GLM-5.2。在大模型盲测平台Code Arena上，它拿了1595分，总榜第二，由于排第一的Claude Fable 5已被美国出口管制封锁，GLM-5.2实际上成了全球可用的编程模型第一。Design Arena全球第一，FrontierSWE仅次于Claude Opus 4.8，开源协议MIT——可以随便下载、部署、商用。

程序员圈子里一半在转这个消息，另一半在转另一条新闻：猎聘和清华经管学院联合发布报告，2026年全球科技行业363起裁员，波及近15万人，AI连续三个月成为裁员首要推手，日均裁员974人。猎聘CEO戴科彬当着所有人的面说：AI已连续三个月成为各行业裁员最常援引的理由，较去年同期加快44%。

同一天，两条信息。一条告诉你国产AI已经牛到全球第一，一条告诉你全球科技公司正在用它裁你。这不是什么"技术进步带来的阵痛"，这是一个行业的人在同时收到最好和最坏的消息。今天我把这个话题拆成四个部分讲透：GLM-5.2到底强在哪、AI代码的安全黑洞有多深、为什么钱没少但人没了、以及剩下的人该往哪走。

智谱的登顶不是捡来的，是真的打上来的

把时间线拉出来看，这不是单点突破。

5月26日，阿里千问3.7在Code Arena上冲到1541分，在可用的模型中排到全球第二。6月12日，Anthropic宣布接到美国政府指令，立即切断所有非美籍用户对Fable 5的访问。6月17日，GLM-5.2正式开源，1595分登顶。

但就算没有Fable 5被封这件事，GLM-5.2也是全球前三的水平。在FrontierSWE这个专门测超长程软件工程能力（20小时级复杂任务）的榜单上，Opus 4.8拿了75.1%，GLM-5.2拿了74.4%，只差不到1个百分点，把GPT-5.5（72.6%）和Opus 4.7（67.5%）都甩在身后。在Terminal-Bench 2.1上，GLM-5.2比上一代自己跳涨了17.5个百分点，直接逼近顶级Claude模型水平。

百万Token无损上下文——88万字符的大型代码库一口气吞进去，需求、开发、联调、测试、打包上线全流程打通，几个小时就能端出小程序、移动端、网页全套应用。实际测试中一次处理了88万Token，全程没有因为上下文过长出现理解断层。

更狠的是，Day 0就完成了华为昇腾、平头哥、摩尔线程、寒武纪、昆仑芯等全部主流国产算力平台的推理适配。MIT协议开源，任何公司和个人拿到就能直接商用。

有开发者在实测后说："编程能力已经达到很难与Claude Opus区分的水平。"

这个评价，放在半年前没人敢说国产模型。

代码跑得比你快，但漏洞比你多10倍

GLM-5.2强归强，另一件事值得所有人冷静一下。

今年4月，三个安全研究员在arXiv上发了一篇叫《Broken by Default》的论文，230页实验数据。实验设计很简单：给7个主流AI编程模型出500个安全关键任务，代码生成后用Z3 SMT形式验证——不是模式匹配，不是正则扫描，是数学证明级别的可被利用性。

结果：55.8%的生成代码存在可以被形式证明的安全漏洞。没有任何对抗性提示，就是普通编程任务。

更让人后背发凉的是第二个发现。用业界最常用的三件套Semgrep、Bandit、CodeQL去扫这些漏洞代码，它们加在一起的检出率——2.2%。CodeQL安全扩展检出率是0%。在90个被Z3证明确实存在漏洞的样本中，CodeQL一个都没发现。

你跑了一圈安全扫描，报告全绿。你以为安全了。实际是扫描工具根本不认识AI写的漏洞。

同一个实验里最耐人寻味的细节：把AI生成的漏洞代码再喂给它做安全审查，同一批模型正确识别出了78.7%的Bug。它能说清楚漏洞在哪、为什么是漏洞、怎么修。但让它自己从零生成的时候，55.8%的产出仍然有漏洞。

研究者给这个现象起了个名字：生成-审查不对称性。模型的安全知识和代码生成行为之间隔着一道墙。它知道应该怎么写安全的代码，但真到生成的时候，它选择的是训练数据里最常见的那种写法。而训练数据里，不安全的代码远比安全的多。

这就好比一个刚毕业的实习生，考试满分，真干活各种漏坑。不是他不会，是他觉得"别人都这么写"。

更具体的数字：GitClear的报告显示，AI参与编写的代码，长期维护成本是纯人类代码的2.7倍。AI生成的代码中，47%在上线后一年内被完全重写，纯人类代码只有19%。

新加坡管理大学对大量GitHub仓库的分析发现，AI引入的问题中89.1%是"代码异味"——不是语法错误，不是明显漏洞，是结构上的不健康：冗余抽象、不合理耦合、被忽略的错误路径。在仓库最新版本中，仍24.2%的AI引入问题持续存在，变成了永久技术债。

Georgia Tech的Hanqing Zhao说了一句："即使团队进行代码审查，当代码库的一半是机器生成时，也不可能发现所有问题。"

安全防线需要从代码仓库内部重头建起，而不是在外部继续打补丁。

利润创新高，人却没了：AI时代的裁员新逻辑

猎聘和清华的联合报告提供了一个很扎眼的数据：2026年以来全球科技行业363起裁员事件、波及近15万人，AI连续三个月是裁员首要推手，日均974人，较去年同期加快44%。

但同期的企业利润呢？亚马逊单季净利润302.55亿美元，同比暴涨77%，创历史最高，2024到2026年累计裁员约3万人，其中78%裁员对象是L5到L7的中层管理者。Meta、微软、甲骨文，4月同一个月里合计裁减约4.67万个岗位。进入5月，PayPal宣布裁员20%，超过4500人；Cloudflare首次大规模裁员1100人，CEO在内部邮件里直接说：决定源于AI带来的效率提升。

腾讯网的深度报道点破了新的逻辑链：传统裁员是"收入下降→利润承压→压缩人力成本保命"。AI时代的逻辑完全反过来了——四家美股巨头2026年合计资本支出预计突破6500亿美元，几乎全部投向AI数据中心、定制芯片和电力建设。亚马逊2026全年资本支出预期上调至接近2000亿美元，同比涨53%；Google上调至1800到1900亿美元；微软预计1900亿美元，同比涨61%。

钱没有消失，只是从人力预算流向了算力预算。

Google DeepMind高级研究科学家姚顺宇把大厂现在的用人逻辑概括为：花100个人的钱，雇1个人，干1000个人的活。

国内的数据同样触目。智联招聘2026年一季度：普通后端开发、前端开发岗位需求同比下降52%，薪资涨幅基本停滞。机器学习岗位对1年以下经验人才需求降71.43%，图像算法降66.67%，软件测试降52.94%。脉脉春招数据：要求3年以上工作经验的岗位占比超七成，面向应届生或新人的岗位缩减了约20%。

美国劳工统计局：过去两年，"程序员"（被定义为专门执行编码任务的岗位）数量下降了超过25%。美联储2026年5月的研究报告更直接：自2022年底ChatGPT出现以来，美国软件开发人员职位招聘增长率直接腰斩。22岁到25岁的初级程序员，过去18个月从业者数量减少了近20%。

一个极端黑色幽默：被裁的Meta中层经理，正在亲手建造取代自己的AI系统。Meta内部员工的描述是："团队规模较小的Manager基本都被Flatten了，被要求转为个人贡献者。他们的手下要么被裁掉，要么被强制转岗去应用AI工程团队。"

被AI清退的人去了哪？

我在技术群里做了个调研。40多个被裁或主动转型的程序员，去向大致分三条路。

第一条：从代码生产者变成业务翻译官。AI能写代码，但不理解"为什么这样写"。一个做了8年后端的朋友转型后跟我说，他的日常从写接口变成了跟产品经理反复确认需求细节，然后用极精准的提示词把业务逻辑翻译给AI。他一个人顶原来三个人的产出，工资涨了40%——不是因为代码写得好，是因为他能让AI写出对的代码。

第二条：从执行层冲上决策层。猎聘数据显示，系统架构师需求同比增长120%，AI工程化专家增长89%，大模型应用开发者严重短缺。而CSDN的2026技术趋势报告给了个更残酷的判断：初级CRUD工程师替代率超过85%，简单前端页面可由AI直接生成，基础测试工程师的单元测试和接口测试完全可被AI替代。

第三条：独立开发，用AI杠杆放大个人产能。一个人用AI编程工具做出过去需要一个团队的产品，这事已经在发生了。月入三五万不再是神话。但这条路风险最高——你赌的是自己的产品嗅觉和市场判断。

说白了，AI时代不是"有技术的人会赢"，而是"能把技术翻译成价值的人会赢"。

还有一个很有意思的数据，猎聘报告里提到AI岗位需求已从"会做算法"走向"算法+应用+智能体"的复合结构。2025年Q3之后AI人才需求向中高层级汇聚，领军级人才需求两年内倍增。新出现的岗位名字包括：Agent产品经理、Prompt策略设计师、AI治理专家、AI工作流设计师。

这些岗位的共同点是：它们都不要求"写代码"是第一能力，但每一个都要求你对代码有深刻理解。

那个一定会来的安全事故

我最后想聊一个不太舒服的话题。

《Broken by Default》论文给出的55.8%漏洞率不是终点。随着AI生成的代码在代码库中占比突破50%，安全体系的失效率是指数级的。传统SAST工具检出率只有2.2%，扫描报告全绿不等于安全，等于你根本看不见威胁。

我采访过一个金融科技公司的安全负责人，他说了句让我印象很深的话："我们现在最大的焦虑不是被攻击，是不知道哪行AI写的代码哪天会在生产环境炸掉。我们审计过AI产出的代码，发现的问题比人工代码多4倍以上，但团队规模没变——人审不过来。"

他的解决办法是：涉及认证、加密、权限控制的代码，AI绝对不允许碰。AI只写CRUD和非关键业务逻辑。但这是一个靠流程硬兜底的办法，不是技术方案。

Cloud Security Alliance 2026年4月的报告发现了一个更隐蔽的风险：约19.7%的AI建议的Python和JavaScript依赖包名字根本不存在——黑客可以在PyPI和npm上注册这些名字，植入恶意代码，等AI下次建议别的开发者安装。

未来三年，会有一次因为AI生成代码而导致的大规模安全事故。我不知道什么时候、在哪个领域，但它一定会来。

这句话不是危言耸听。当代码产出中AI占比超过50%，而安全体系还停在人工时代的工具和流程，事故是必然的。只是时间问题。

干货总结

GLM-5.2的登顶不是捡漏是硬实力——FrontierSWE差Opus 4.8仅1%，编程能力已达到与顶级闭源模型难分伯仲的水平。国产模型在编程赛道完成了集体突围。
AI生成代码55.8%存在可证明漏洞，但传统安全工具只检出了2.2%。你扫全绿不等于安全，等于你的工具不认识AI漏洞。
科技巨头在利润创历史新高的同时裁员近15万人，因为钱从人力预算流向了算力预算。不是生意不好，是生意变了。
初级CRUD工程师替代率超85%，但系统架构师需求涨120%、AI工程化专家涨89%。两极分化不可逆。
AI生成的代码中19.7%的依赖包建议指向不存在的东西——供应链攻击的新弹药库已经就位。

如果你的日常工作能被一个清晰的Prompt描述清楚，AI就正在替代你。但如果你做的是AI描述不清楚的事——把模糊需求翻译成方案、在多个烂选项里选一个最好的、看到Bug立刻判断是业务逻辑错还是实现方式错——那AI不但替代不了你，还会让你变得更值钱。你最值钱的本事，到底是哪一个？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.