2024年11月,两个AI实验室的代码模型同时跨过了一道隐形门槛。之前你让AI写代码,得到的是"能跑,但得盯着";之后变成"告诉它要啥,基本就能用"。
这个转变有多快?快到连天天写代码的人都懵了。有人开始一天产出1万行代码,而且"大部分能用"。
从"玩具"到"能用"的临界点
Simon Willison在Lenny Rachitsky的播客里把这个节点叫"拐点"(inflection point)。OpenAI的GPT 5.1和Anthropic的Claude Opus 4.5,两个模型都没搞什么发布会级别的噱头,但代码质量突然从"需要高度警惕"变成了"基本靠谱"。
他打了个比方:以前你让AI做个Mac应用,回来的是"一堆跑不起来的垃圾";现在你能得到"一个确实能做那件事的东西"。
这个差别不是程度问题,是性质问题。
代码有个特性帮了大忙——它对错分明。能跑就是能跑,报错就是报错。不像写 essay 或准备诉讼材料,好坏难量化。AI先冲击程序员,某种程度上是因为代码是最容易验证的试验田。
但Willison提了个尖锐的问题:一天1万行代码,"大部分能用",这算好事吗?怎么从"大部分"进化到"全部"?
"氛围编程"正在分裂职场
Willison自己成了极端案例。他现在大量代码是在手机上写的,Claude的iPhone应用,遛狗时在海滩边敲。聊天界面能直接执行代码,或者远程控制Claude Code for web。
这种工作流被他归类为"vibe coding"——氛围编程,凭感觉写,能跑就行,反正只有你自己承担bug的后果。
但氛围编程和正经工程的分界线正在变得锋利。Willison的原话是:
「如果你给自己写点东西,bug只伤害你自己,随便搞。但一旦涉及别人——同事、用户、任何外部人——标准就完全不同了。」
这个张力正在重塑软件团队的结构。以前写代码占掉大部分时间,现在那部分被压缩了。剩下的时间干什么?审AI生成的代码?设计更复杂的系统?还是干脆团队缩水?
程序员成了其他知识工作者的"金丝雀"。代码的验证成本最低,所以AI冲击先来这儿。律师、分析师、咨询师的路数会不一样,但方向大概率相似。
法律行业已经踩坑了
Willison顺手扔了个数据:AI幻觉诉讼案例数据库已经攒到1,228起。律师们正在用AI准备材料,然后被虚假判例引用坑进法庭。
代码至少会报错。法律文书的错误可能潜伏几周才被发现,而且代价是当事人的案子或律师的执照。
播客开头有个冷启动片段值得注意。以前你用ChatGPT要代码,它吐出来,你得自己跑测试。现在的coding agent把测试这一步也包了——生成、运行、迭代,闭环完成。
Willison的开放问题是:还有多少知识工作领域适合这种"agent loop"?
代码有编译器当裁判。营销文案、财务模型、医疗诊断,谁来当这个裁判?标准模糊的领域,AI代理的迭代循环可能越跑越偏,而且没人及时发现。
10,000行代码之后
Willison的1万行代码日产能,按传统标准看是疯狂的。但产能数字本身正在失去意义——如果代码是AI写的,"写得多快"还重要吗?
更有价值的指标可能是:多少代码不需要返工?多少系统能一次设计对?多少时间花在定义问题而非解决问题?
软件工程的职业身份也在松动。以前是"写代码的人",现在可能是"指挥AI写代码的人",或者是"判断AI写的代码能不能用的人"。后两种角色的技能树完全不同。
播客里没给答案,只有观察。Willison说他自己也在摸索,团队怎么重组、职业怎么规划,都是进行时。
但有个信号很明确:其他行业的信息工作者,该盯着软件工程师现在的处境了。代码是前哨,你们是主战场。问题是,你们有编译器吗?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.