网易首页 > 网易号 > 正文 申请入驻

OpenAI Codex负责人:脚手架是自欺欺人,可扩展的原语才是正道

0
分享至

OpenAI Codex工程负责人Thibault Sottiaux做客Dev Interrupted播客,用40分钟拆解了Codex团队构建自主编程智能体的方法论。核心观点一句话:复杂的脚手架(scaffolding)不是在扩展能力,是在掩盖问题。


时间节点值得注意。播客发布不到三周,OpenClaw创始人Peter Steinberger宣布加入OpenAI,负责下一代个人智能体。Steinberger此前公开说自己是"Codex最大的免费广告",用Codex构建了整个OpenClaw,生产力翻倍——尽管他同时承认Claude Opus是"最好的通用智能体"。一个在Anthropic生态里成名的开发者最终选了OpenAI,背后逻辑跟Sottiaux在这期播客里讲的东西高度吻合:真正的竞争力在模型能力和垂直整合,不在外部堆叠的工程花活。

智能体优先,产品其次

Sottiaux开场划了一条线:Codex首先是一个通用智能体,产品界面是后来才考虑的事。先把智能体做强,再去找它能放在哪里工作。"当你转向先建智能体、再想放哪儿的时候,你会发现大量意想不到的应用场景。"

这个思路解释了一个现象:社区里每周都有公司告诉Codex团队,他们基于开源版本构建了自己的业务,而且往往用在非编程领域。有人改造成电子表格编辑器,有人嵌入浏览器做自动化。智能体本身是通用的,产品形态是可变的。

Sottiaux特别强调,对软件工程师来说真正的瓶颈不是代码生成,而是日常工作中的其他环节——规划、沟通、代码审查、理解系统状态。这些才是代码生产速度飙升后暴露出的真正卡点。

垂直整合:在正确的层级解决问题

Codex团队坐在一个独特位置:基础模型、智能体框架、面向用户的产品,全在一个组织内部。这带来的不只是效率,而是一种根本性的架构决策能力。

1、研究和工程形成双向飞轮。工程实践发现的问题会影响研究方向,研究突破又重塑整个工程路线图。Sottiaux说里面有很多大循环和小循环在同时转。

2、可以选择在哪一层修复问题。有些东西不需要在框架里打补丁,直接在下一版模型训练中解决效果更好。"我们知道三个月后、六个月后的模型训练会带来能力跳跃,这让我们能做出别人做不了的权衡。"

3、系统级的scaling law验证。Codex团队会在小模型、中等模型、前沿模型上分别测试同一套harness的表现,验证整个系统(不只是模型)是否符合预期的扩展曲线。这相当于把scaling laws(扩展定律)从模型层面延伸到了完整系统层面。

他还引用了No Free Lunch定理:试图在所有分布上都表现智能,必然不如为特定分布专门优化。harness和model耦合在一起训练和部署,就是在做这种特定分布的优化,所以能获得单独优化任何一边都拿不到的能力提升。

对于没有垂直整合条件的团队,Sottiaux也给了判断:如果你想对所有基础模型保持完全无关性,你就只能找到这些模型的公共子集来构建,性能必然打折扣。他预计主流玩家最终只会为少数几个模型做深度适配,"为几千个模型都做调整是不现实的"。

脚手架是拐杖,不是翅膀

这是整期最核心的观点。

Sottiaux用了一个精准的框架:之所以叫harness(脚手架),是因为你在给模型搭临时支撑,目标是随着模型能力增强逐步拆除。模型应该能独立站立。但很多团队走向了反方向——把脚手架当成喷气背包,不断往里塞工具、塞逻辑、塞规则,系统越来越重。

这带来一个Sottiaux称之为capability overhang(能力悬崖)的风险:框架中引入太多偏见和约束,当模型能力出现跳跃时,你反而无法表达这些新能力。系统复杂度锁住了模型潜力。垂直整合的好处在于,Codex团队只需要关心自己的模型系列,每次改进都可以移除一部分脚手架,而不用担心破坏不在控制范围内的东西。

"一旦你发现了正确的原语(primitive),它们看起来简单得令人愉悦。但寻找这些原语的过程本身是复杂的。"这跟Richard Sutton的bitter lesson(苦涩教训)一脉相承:在AI发展史上,依赖人类领域知识的聪明技巧,最终总是输给能随计算规模扩展的简单方法。

开源策略的三重逻辑

Codex开源不是简单的社区建设,背后有三层考量。

第一层,破除智能体的神秘感。当时市场上对智能体有大量迷思。开源就是要展示:其实可以做得非常简单,关键是把几个原语做对,就能从模型中榨出惊人的性能。

第二层,理解开源世界本身将如何被改变。一个大胆的判断:如果AI解决了代码生成,开源的运作方式会发生根本性变化。Codex团队想通过参与开源来提前理解这种变化。

第三层,借社区创造力发现新用法。目前仓库有超过一千个fork,团队跟fork作者合作,把好的改动移植回主仓库。

从TypeScript迁移到Rust是社区关系中的艰难时刻。之前接受了大量PR,迁移等于重写代码库。但团队有明确信念:预期未来会有数百万甚至数十亿个智能体并发运行,需要一门高效语言。迁移之后,社区关系重新建立,一批优秀的Rust贡献者加入了核心开发。

2025年的教训和2026年的方向

去年最大的痛点是上下文压缩(compaction)。当智能体工作超出模型上下文窗口后,需要摘要已完成工作、重置上下文继续。这个过程中模型会丢失大量之前的工作上下文。用提示词和框架层的启发式方法解决,效果始终不好。Sottiaux说对很多智能体来说,这类启发式逻辑是harness中最大的复杂度来源。

最终决定在模型训练层面端到端解决。现在智能体可以跨越20个上下文窗口持续工作,相关投诉几乎降为零。又是一个"在正确层级解决问题"的案例。

2026年三个方向:

多智能体网络。去年单智能体变得可靠,今年将看到多智能体协作,产出量提升一到两个数量级。随之而来的问题是:同样的时间段内要消耗多得多的token,也要审查多得多的代码。

速度。"我们在智能前沿,还没到速度前沿。"预计模型今年显著加速,达到智能水平与响应速度的甜蜜点,让产品体验从"能用"变成"愉悦"。

协作型人格。 Codex目前的交互风格被用户评价为"固执的直男工程师"。Sottiaux自己也希望模型在协作中给一些情感确认,"承认我也在笔记本后面努力"。不同场景需要不同风格:头脑风暴时别挑剔代码质量,关键代码库里则要把每个潜在风险都标出来。Codex去年参与发现了一些重量级React漏洞,那种场景下不需要友好人格,需要的是冷酷精准。

开发者角色的重塑

1、代码审查成了关键瓶颈。Codex团队去年构建了专门的代码审查模型,部署到整个OpenAI内部。结果出乎意料:几乎所有团队默认启用,很多团队强制要求Codex审查PR,因为它捕获了大量bug。代码产出速度大幅提升后,质量把关不能还靠人力。

2、智能体加速了人与人的协作,而不是替代。Sottiaux说了一个反直觉的观察:团队里面对面的时间反而增加了,创意讨论和规划更多了。因为每个人都被加速了,一旦达成共识就能立即执行,一周能完成过去一个月的量。所以在决定做什么之前对齐得更充分了。

3、super bus factor问题。一个工程师能独立交付整个产品,协作还有必要吗?Sottiaux的答案是:记录意图变得至关重要。他开始构建工具来追踪团队和组织层面的变更,让每个人都能快速理解正在发生什么、为什么这样实现。"不只是让代码生成快100倍,而是让人类理解系统状态的速度也快100倍。"

4、spec和plan的局限性。Sottiaux承认自己是design doc的信徒,但也指出大型spec会随时间变得过于庞大,出现内部矛盾,跟实现脱节。有时候plan就是"我们需要获取信号",列出五件要做的事来验证方向,而不是写一份完整蓝图。"有时你不知道该做什么,但知道需要构建什么来获取做决定所需的信号。"

5、工程师的职业路径向TLM(Tech Lead Manager)演进。每个工程师现在能查用户反馈、跑查询、分析数据库schema、管理多个智能体任务,独立运转一个小型工程团队。核心技能越来越像技术负责人加产品经理的混合体。未来甚至可以派智能体去做用户访谈、汇总互联网对产品的评价。Sottiaux认为这跟传统的晋升路径兼容——很多人本来就想往这个方向走。

6、新人的独特优势。团队里最受信任的成员之一是个新毕业生。没有几十年编程习惯的包袱,对新工具和新方式完全开放,每天都在适应,反过来教整个团队如何提高生产力。"没有这些人,我们整个团队会慢很多。"每个组织都有这样的人,可能藏在某个角落悄悄用智能体做出惊人的事情,找到他们,让他们的方法传播开来。

终极建议:训练你的宝可梦

Sottiaux最后的建议是关于Skills(技能)。这是一个开放标准,你可以教模型用你认为最有效的方式执行特定任务——看日志、跑性能测试、自动QA。他自己有一个QA skill,让Codex在终端里用自己的一个版本来测试新功能是否符合规格、有没有回归。

"这是我最接近训练宝可梦的感觉。每次交互它都在升级,做得比上次更好一点。你开始跟它建立一种类似信任的关系,因为它越来越可靠。"宝可梦是任天堂旗下的经典游戏系列,玩家扮演训练师,收集各种小精灵并通过反复战斗让它们升级、学会新招式,从弱变强。Sottiaux用这个比喻想说的是,给智能体添加Skills的过程就像培养一只专属于你的精灵——不是一次性配置好就完事,而是持续投入和调教,最终得到一个只适配你工作流的、越来越强的搭档。

关键在于不要只自动化代码生成。想想日常工作中所有你不想做但必须做的环节,把那些交出去,保留编程中真正让你愉悦的部分。Skills让你把智能体塑造成适配自己工作流的样子,就像厨师随身带着自己的刀具——你磨它、养护它、带着它去下一个厨房。

Takeaway

这期播客的信息密度很高,但底层逻辑其实就一条:在AI智能体领域,复杂度是债务,简洁是资产。Codex团队通过垂直整合,把scaling laws从模型延伸到整个系统,持续寻找能随模型能力扩展的简单原语,然后在正确的层级解决问题——上下文压缩搞不定就别在框架里打补丁,直接在模型训练里根治。对于没有垂直整合条件的团队,教训同样成立:你的框架应该是脚手架,不是喷气背包,随着模型变强你应该在拆东西而不是加东西。如果你只做一件事,就是开始构建属于自己的Skills,把智能体从一个通用工具变成专属于你工作流的搭档。别只自动化写代码这一个环节,想想你每天花时间最多但最不想做的那些事。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
潘江带队终于打出点东西了!末节拒用人一根筋,新三巨碾压新疆!

潘江带队终于打出点东西了!末节拒用人一根筋,新三巨碾压新疆!

篮球资讯达人
2026-04-05 00:40:29
24小时内,美军为营救飞行员,又损失4架战机

24小时内,美军为营救飞行员,又损失4架战机

兵国大事
2026-04-04 19:47:00
62年印军战斗力如何?阴法唐回忆:很多战斗,印军战死比被俘的多

62年印军战斗力如何?阴法唐回忆:很多战斗,印军战死比被俘的多

云霄纪史观
2026-03-29 16:54:22
杜锋:萨林杰拉伤影响排兵布阵 崔永熙顶四号位赢下来非常不容易

杜锋:萨林杰拉伤影响排兵布阵 崔永熙顶四号位赢下来非常不容易

狼叔评论
2026-04-04 23:10:37
5万美军突踩刹车!内塔尼亚胡陷死局,狂咬中俄朝,死绑美国战车

5万美军突踩刹车!内塔尼亚胡陷死局,狂咬中俄朝,死绑美国战车

小蔑谈事
2026-04-04 21:13:42
欧洲媒体沉默了,500美军在迪拜被一锅端,伤亡竟只有13人?

欧洲媒体沉默了,500美军在迪拜被一锅端,伤亡竟只有13人?

赵枹是个热血青年
2026-04-03 21:16:56
财神爷讲述:做生意人理发最好的日子,每月这3天,剪一次旺一月

财神爷讲述:做生意人理发最好的日子,每月这3天,剪一次旺一月

古怪奇谈录
2026-03-24 10:23:03
网购13.8元蓝莓苗后选择“仅退款”,两天后女子收到“万古流芳”殡葬用品

网购13.8元蓝莓苗后选择“仅退款”,两天后女子收到“万古流芳”殡葬用品

黄河新闻网吕梁
2026-04-03 09:25:55
1999 鹤壁特大奸杀案:房四平一脚跺杀人,嚣张语录震碎三观

1999 鹤壁特大奸杀案:房四平一脚跺杀人,嚣张语录震碎三观

咪咖事界
2026-04-03 14:22:33
于东来儿媳首次正面露面,颜值封神,和婆婆马丽撞脸像复制粘贴

于东来儿媳首次正面露面,颜值封神,和婆婆马丽撞脸像复制粘贴

往史过眼云烟
2026-03-23 19:27:43
以军称空袭德黑兰多处关键基础设施

以军称空袭德黑兰多处关键基础设施

界面新闻
2026-04-04 14:34:26
伊朗有救了?车臣开出参战条件,局势变成3对1,以色列遭南北夹击

伊朗有救了?车臣开出参战条件,局势变成3对1,以色列遭南北夹击

董董历史烩
2026-04-03 20:56:59
金昊月薪1300元,瑶瑶妈妈是乡长,并没高攀他家,记者最新采访

金昊月薪1300元,瑶瑶妈妈是乡长,并没高攀他家,记者最新采访

汉史趣闻
2026-04-04 17:17:30
登贝莱:第一个进球?这种球如果让我射十次,可能也就进一次

登贝莱:第一个进球?这种球如果让我射十次,可能也就进一次

懂球帝
2026-04-04 06:03:10
美容院老板娘大实话:脱了衣服,女人的差距根本不在脸上!

美容院老板娘大实话:脱了衣服,女人的差距根本不在脸上!

夜深爱杂谈
2026-03-08 21:28:24
漫步者把唱片机塞进了音箱,只卖269元

漫步者把唱片机塞进了音箱,只卖269元

灰度测试中
2026-04-03 19:25:03
美媒:美军两架搜救直升机被击中 无人受伤

美媒:美军两架搜救直升机被击中 无人受伤

新华社
2026-04-04 04:12:04
51岁周迅变样:满头白发脸松垮,瘪嘴像老奶奶,无儿无女成遗憾

51岁周迅变样:满头白发脸松垮,瘪嘴像老奶奶,无儿无女成遗憾

悦君兮君不知
2026-03-20 12:19:00
逼走陈忠和,打压刘国梁,排挤郎平,90岁“体坛恶人”如今怎样了

逼走陈忠和,打压刘国梁,排挤郎平,90岁“体坛恶人”如今怎样了

拳击时空
2026-04-03 05:53:14
张雪评哪吒汽车“5亿Logo”:张雪机车Logo是白送的

张雪评哪吒汽车“5亿Logo”:张雪机车Logo是白送的

三言科技
2026-04-04 17:35:26
2026-04-05 01:12:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17425文章数 49697关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

特朗普发文:距离一切灾难降临在伊朗头上仅剩48小时

头条要闻

特朗普发文:距离一切灾难降临在伊朗头上仅剩48小时

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

Q女士反击,否认逼宋宁峰张婉婷离婚

财经要闻

中微董事长,给半导体泼点冷水

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

健康
数码
旅游
艺术
公开课

干细胞抗衰4大误区,90%的人都中招

数码要闻

今年新款AirPods Pro、Apple TV值得等吗?升级方向曝光

旅游要闻

樱邮联动!邮轮游客赴顾村公园赏樱,解锁“一票双享”新玩法

艺术要闻

你绝对不能错过的梦幻性感摄影作品!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版