网易首页 > 网易号 > 正文 申请入驻

仅4人28天!OpenAI首曝Sora内幕:85%代码竟由AI完成

0
分享至


新智元报道

编辑:好困 桃子

【新智元导读】OpenAI爆款APP,只动用了四员悍将。他们在短短28天内,完成了从0搭建安卓版Sora。这背后,竟是AI完成了85%的编码。

4人28天手搓Sora APP,约85%代码竟是AI写的!

10月初,OpenAI重磅发布迭代后Sora 2,以及首个AI视频应用Sora APP。

直到11月,安卓版Sora一经上线,就登上了谷歌Play Store榜首。


安卓用户在24h内,生成了超100万条视频

时隔两个月,OpenAI团队揭秘这款爆火应用(首个安卓版),如何构建的背后故事。

让人意外的是,这款APP仅在28天内完成,背后最大功臣便是AI智能体——Codex。


从10月8日到11月5日,4人工程团队与Codex协作,消耗约50亿Token,就把Sora Android推向全球。

尽管应用规模虽大,却实现了99.9%无崩溃率。

而且,他们还使用的是GPT-5.1-Codex模型的早期版本。

发布仅5个月的时间,Codex已经承包了OpenAI内部每周70%的PR了。




拥抱 「布鲁克斯定律」:保持灵活,唯快不破

当Sora在iOS上发布时,用户量直接原地爆炸。


相比之下,安卓当时只有一个简陋的内部原型,而在Google Play上预注册的用户却在越堆越多。

面对这种高压、火烧眉毛的发布任务,通常的反应就是疯狂堆人、加流程。

像这种规模和质量的生产级应用,通常得一大帮工程师干好几个月,而且还会被各种协调工作拖慢进度。

美国计算机架构师Fred Brooks曾有一句名言,「向一个已经延期的软件项目增加人手,只会让它延得更厉害」。


换句话说,想要快速交付一个复杂项目时,堆人往往增加了沟通成本、任务碎片化和集成难度,反而会降低效率。

为此,OpenAI组建了一支只有四名工程师的「精锐小队」——全员配备Codex,极大地把每个人的战斗力拉满。

靠着这种打法,在18天内就向员工发布了Sora Android的内部构建版本,仅仅10天后就向公众正式发布。




AI迭代AI,自我进化

在OpenAI内部,绝大部分工程师都在用Codex,即开源版CLI。

Codex产品负责人Alexander Embiricos透露,「它会监控自己的训练过程,并处理用户反馈,「决定」下一步该做什么。

Codex正在给自己的训练运行编写大量的研究测试框架(research harness),OpenAI甚至在尝试让Codex去监控自己的训练过程。

这种「套娃」式的开发模式,可以让Codex自我迭代。


这种用工具造更好工具的递归循环,在计算历史上其实由来已久。

1960年代,工程师们在纸上手工设计了第一批集成电路,然后根据图纸造出了物理芯片。

接着,这些芯片又驱动了运行第一批电子设计自动化(EDA)软件的电脑,而这些软件反过来又让工程师能设计出人类手绘根本搞不定的复杂电路。

现代处理器包含数十亿个晶体管,这种排列模式之所以能存在,全靠软件。

OpenAI用Codex来造Codex似乎也是这个路子:每一代工具创造的能力,都会反哺到下一代中。

这个系统能自主运行许多进程,处理反馈,衍生并管理子进程,还能生成最终发布在实际产品里的代码。

OpenAI员工管它叫「队友」,并且用诸如Linear、Slack等工具来给它派活儿。

Codex处理的任务,到底算不算真正的「决策」?

但无可否认的是,这里形成了一个半自主的反馈循环:

Codex在人类的指导下写代码,这些代码变成了Codex的一部分,结果就是下一个版本的Codex会写出不一样的代码。

一位刚入职的「高级工程师」

为了理解工程师是如何跟Codex配合的,需得先知道它哪里强、哪里需要人带。

把它当成一个「刚入职的高级工程师」是个很好的切入点。

这个定位,意味着工程师可以把更多时间花在指挥和Review代码上,而不是自己在那儿敲代码。

与「氛围编程」不同的是,让Codex编码属于「Vibe engineering」(氛围流工程)的领域。

前者是指,开发者不怎么细看就直接接受AI生成的代码,而后者是AI研究员Simon Willison提出的概念,指人类仍保持在循环中。

一般来说,让Codex干活/制定计划,再一起讨论,迭代计划,这样开发者就和模型保持在一个「循环」里,还能仔细审查代码。

Codex需要指导的地方

目前,Codex还不擅长推断未知的事。

比如,个人喜欢的架构模式、产品策略、真实用户行为,以及内部的潜规则或捷径。

同样,Codex也看不到App实际跑起来的样子:

它没法在真机上打开Sora,感觉不到滚动条是不是不丝滑,或者察觉到某个交互流程很别扭。

这些体验层面的活儿,只能靠OpenAI团队自己来。

每一个实例都需要「入职培训」。给出上下文,明确目标、约束条件,以及明确的规矩,对于让Codex把活儿干漂亮至关重要。

还有,Codex在深层架构判断上也容易跑偏:如果放任不管,它可能会搞出一个多余的ViewModel,实际上团队只想扩展现有的那个;或者把本该属于Repository层的逻辑硬塞进UI层。

它的本能是把功能跑通就行,而不是优先考虑长期的代码整洁度。

OpenAI发现,在整个代码库里到处放大量的AGENT.md文件非常有用。

这能让工程师在不同的会话里,轻松复用相同的指导和最佳实践。

举个例子,为了确保Codex按照风格指南写代码,OpenAI团队在顶层的AGENTS.md里加了这么一段:

- **Always run** `./gradlew detektFix` (or for the affected modules) **before committing**. CI will fail if formatting or detekt issues are present.

Codex擅长的地方

接下来,再来看看Codex最擅长什么?

  • 秒懂大型代码库:Codex精通所有主流编程语言,不需要搞复杂的抽象,就能轻松地在不同平台间复用相同的概念。

  • 测试覆盖率:Codex对写单元测试有着独特的热情,能覆盖各种边缘情况。虽说不是每个测试都很深,但这广撒网的覆盖率对防止Bug回归特别有用。

  • 响应反馈:同样,Codex很听劝。当CI挂了的时候,可以直接把日志甩给它(粘贴到prompt里),让它给个修复方案。

  • 大规模并行、用完即弃:大多数人根本没试探过并行会话数量的极限。开发者可以并行测试好几个想法,把代码当成一次性用品,不行就扔。

  • 提供新视角:在设计讨论中,团队会把Codex当成一个生成式工具,用它来挖掘潜在的故障点,或者发现解决问题的新路子。比如,在设计视频播放器内存优化时,Codex翻遍了多个SDK,提出了一些团队根本没时间去细究的方案。Codex调研出的这些见解,对于将最终App内存占用降到最低简直价值连城。

  • 腾出手做高杠杆工作:实际上,团队最后花在Review和指挥代码上的时间,比自己写的时间还要多。话虽如此,Codex在代码审查(Code Review)方面也很牛,经常能在合并代码前就揪出Bug,提高了可靠性。

一旦摸清了Codex的能力,团队的工作模式就变得很直接了。

在模式清晰、范围明确的地方,让Codex去干那些繁重的苦力活;而团队则专注于架构、用户体验、系统性变更和把控最终质量。

立规矩,手动打地基

为了用好Codex并确保出活稳健、好维护,关键在于,开发者要亲自把控系统的设计和关键权衡。

这包括定好App的架构、模块化、依赖注入和导航;甚至身份验证和基础网络流程也是自己搞定的。

对于一个估算有85%的代码都是Codex写的项目来说,一个精心规划的地基避免了昂贵的返工和重构。

OpenAI团队表示,「这绝对是我们做过的最正确的决定之一」。

一定要形成这样一个思路——

不是为了尽快搞个「能跑的东西」,而是要搞个「懂规矩的东西」。

写代码有很多种「正确」的方式:

  • 不需要告诉Codex具体每一步怎么做;

  • 但需要向Codex展示什么是「正确」的。

一旦定好了起点和团队喜欢的构建方式,Codex就可以开工了。

为了看看会发生什么,OpenAI团队确实试过直接给Prompt:

照着iOS代码构建Sora Android App。开始干。

结果,很快就翻车了。

虽然Codex写出来的东西技术上能跑,但产品体验完全不达标。

而且如果不懂端点、数据和用户流,Codex这种「一锤子买卖」(Zero-shot)写出来的代码根本不可靠。哪怕不用 AI,一次性合并几千行代码也是作死。

OpenAI的假设是,如果给Codex一个写满好范例的沙盒,它就能如鱼得水;事实证明,他们是对的。

光秃秃地让Codex「做个设置页面」基本不靠谱。

但如果你让它「参考你刚才看到的那个页面的架构和模式,做个设置页面」,效果就好太多了。

人类做结构性的决策并定下硬性规矩;Codex负责在这个框架里填充大量的代码。

先规划,再编码

为了最大化Codex的潜力,团队下一步是搞清楚——怎么让Codex长时间在无人监督的状态下干活。

为此,4人团队改了工作流。

对于任何稍微复杂点的改动,先让Codex帮理清系统和代码是怎么运作的。

比如,让它读一组相关文件,总结这个功能是怎么跑的;比如数据怎么从API流经Repository层、ViewModel,最后到UI,然后人工纠正或细化它的理解。

这就像带一个能力很强的新队友一样,团队会跟Codex一起制定一个扎实的实施计划。


这个计划通常像一份微型设计文档,指明哪些文件要改,要引入什么新状态,逻辑该怎么走。

只有到了这一步,团队才让Codex开始执行计划,一步步来。

此处,有个非常实用的小技巧:

对于那种超长任务,当上下文窗口快爆了的时候,他们会让Codex把计划保存到一个文件里,这样就能在不同的会话里延续同样的指导思路。

这个额外的规划循环证明,磨刀不误砍柴工。

团队可以放心地让Codex长时间「无人监督」地跑,这也让Code Review变得更容易,因为可以对照计划来检查实现,而不是一脸懵逼地看Diff。

而且万一出问题了,可以先调试计划,再调试代码。

多AI并行, 分布式工程

在项目最忙的时候,OpenAI团队经常并行跑着好几个Codex会话。

一个在做播放功能,另一个在做搜索,另一个在处理错误,有时候还有一个在写测试或重构。

这感觉不像是用工具,更像是「管团队」。每个会话都会定期汇报进度。

一个可能会说,「我已经规划好这个模块了;这是我的建议」,而另一个会为一个新功能甩出一个巨大的Diff。

每一个都需要关注、反馈和Review。

这跟做一个带着好几个新人的Tech Lead简直一模一样,大家都在推进,大家都需要指导。

结果就是形成了一种协作流。Codex这种暴力的编码能力,把团队从大量的手工打字中解放出来了。

因此,他们有更多的时间思考架构,仔细读PR,测试App。

Codex不会有上下文切换的瓶颈,但开发者有。开发工作流,从写代码变成了做决定、给反馈和集成变更。

这就是「布鲁克斯的定律」以一种新方式应验的地方。

你不能简单地增加Codex会话就指望速度线性提升,就像你不能往项目里无限加人一样。

每一双额外的「手」,哪怕是虚拟的,都会增加协调成本。



Codex:跨平台超能力

OpenAI这一项目起步时有一个巨大的先发优势:Sora已经在iOS上发布了。

他们经常把Codex指向iOS和后端代码库,帮它理解关键需求和约束。

在整个项目过程中,OpenAI开玩笑说「重新发明了跨平台框架,忘掉React Native或Flutter,跨平台的未来就是 Codex」。

这句玩笑背后有两个原则:

1. 逻辑是可移植的

无论代码是用Swift还是Kotlin写的,底层的应用逻辑——数据模型、网络调用、验证规则、业务逻辑——都是一样的。Codex非常擅长读取Swift实现并生成语义一致的Kotlin代码。

2. 具体示例提供强大的上下文

一个全新的Codex会话,如果能看到「这就是它在iOS上究竟是怎么跑的」以及「这是Android的架构」,那效率远比光听自然语言描述要高得多。

基于这些原则,团队把iOS、后端和Android仓库都放到了同一个环境中。

给Codex一个这样的Prompt:

阅读iOS代码里的这些模型和端点,然后出一个计划,用现有的API Client和模型类在Android上实现同样的行为。

此处,也有一个实用的小技巧:

在~/.codex/AGENTS.md里详细写明本地仓库在哪儿以及里面有啥。这能让Codex更容易地找到和跳转到相关代码。

更广泛的经验是,对于Codex来说,上下文就是一切。

当Codex理解了功能在iOS里是怎么跑的,再结合对Android App结构的理解,就能获得非常好的结果。



一场复盘 ,开发者「超能力」觉醒

28天冲刺结束时,用Codex已成为OpenAI默认的开发闭环——理解代码、规划变更、实现功能、Review输出。

显然,AI辅助开发并没有降低工程的严谨性,反而提升了它。

Codex团队设计师Ed Bayes描述了,这个工具如何改变了自己的工作流。

如今,Codex已与项目管理工具Linear、以及通讯平台Slack打通,团队成员可以直接把编程任务派给AI智能体。


他表示,「你可以把Codex拉进来,基本上可以直接给Codex指派 issue。Codex简直就是你工作区里的一个队友」。

这种集成意味着,当有人在Slack里发反馈时,可以直接@Codex让它修bug;它还会提一个PR,团队成员可以在同一个帖子里审查代码并进行迭代。

「它基本上就是在模拟这种同事关系,不管你在哪工作它都在」。

尽管Codex能力很强,但它的目标是立刻从A到B。这就是为什么离了人,AI辅助编程就玩不转。

明日软件工程师的「超能力」,将是深刻的系统理解能力,以及在长时间跨度上与AI协作的能力。

现在,Codex让开发者能专注于软件工程最有意义的部分,回归他们热爱这门手艺的初心。

一旦Codex在一个上下文丰富的环境中配置好,懂你的目标和你喜欢的构建方式,任何团队都能让战斗力翻倍。

这一次,OpenAI的发布复盘不是一个万能药方,也不敢说已经彻底搞懂了AI辅助开发。

但他们希望,能以自己的经验启发更多的开发者,让 Codex更好地为人们所用。

参考资料:

https://arstechnica.com/ai/2025/12/how-openai-is-using-gpt-5-codex-to-improve-the-ai-tool-itself/

https://openai.com/index/shipping-sora-for-android-with-codex/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男子300万黄金不翼而飞,竟是被母亲偷卖后给弟弟买婚房!还被赶出家门……

男子300万黄金不翼而飞,竟是被母亲偷卖后给弟弟买婚房!还被赶出家门……

19楼
2026-02-04 15:56:47
女人偷情发生关系后,最怕什么?

女人偷情发生关系后,最怕什么?

思絮
2026-01-30 10:41:09
A股:今天冲高到4087后反复跳水,种种迹象表明,A股迎更大级别变盘

A股:今天冲高到4087后反复跳水,种种迹象表明,A股迎更大级别变盘

股市皆大事
2026-02-04 12:03:32
1965年陈诚在台湾病逝,身后留下六个子女,他们后来的生活状况如何?

1965年陈诚在台湾病逝,身后留下六个子女,他们后来的生活状况如何?

寄史言志
2026-02-03 00:19:14
有个瞒着自己生二胎的爸妈是啥体验?网友:50多还能接二连三生

有个瞒着自己生二胎的爸妈是啥体验?网友:50多还能接二连三生

解读热点事件
2026-01-30 04:02:43
演员马如龙49岁儿子在家中去世:做完健检回家倒地,送医抢救不治

演员马如龙49岁儿子在家中去世:做完健检回家倒地,送医抢救不治

半岛晨报
2026-02-03 21:00:03
暴跌61%,缩水154亿美元!昔日世界第一新能源车企也卖不动了?

暴跌61%,缩水154亿美元!昔日世界第一新能源车企也卖不动了?

财经八卦
2026-02-03 19:30:46
爱泼斯坦案公布海量内幕,精英群体说的“吃人”,原来是真吃人

爱泼斯坦案公布海量内幕,精英群体说的“吃人”,原来是真吃人

老木说
2026-02-03 21:39:19
耶律德光痛骂刘知远“不配姓刘”:那时的胡人和胡人,还真不一样

耶律德光痛骂刘知远“不配姓刘”:那时的胡人和胡人,还真不一样

黄娜老师
2026-02-04 12:44:24
我大使摊牌,租借99年的达尔文港,若澳强制收回,中方将予以反制

我大使摊牌,租借99年的达尔文港,若澳强制收回,中方将予以反制

观星赏月
2026-02-04 15:00:05
高承勇判死刑后接受采访,他在看守所里画了一幅这样的画,太诡异

高承勇判死刑后接受采访,他在看守所里画了一幅这样的画,太诡异

谈史论天地
2026-02-04 08:49:00
林诗栋换主管教练了,亚洲杯首轮3-0获胜,新教练小试牛刀效果好

林诗栋换主管教练了,亚洲杯首轮3-0获胜,新教练小试牛刀效果好

真理是我亲戚
2026-02-04 13:05:46
去了趟拉斯维加斯,这辈子再不想去二回,到处是陷阱防不胜防!

去了趟拉斯维加斯,这辈子再不想去二回,到处是陷阱防不胜防!

天下霸奇
2026-01-29 09:07:49
要变味儿?央媒下场后,闫学晶再迎噩耗,最担心的事儿还是来了

要变味儿?央媒下场后,闫学晶再迎噩耗,最担心的事儿还是来了

啰嗦的小羊
2026-02-04 13:13:16
假山假景假脸,央视《生命树》的爆火,打脸多少“流水线”年代剧

假山假景假脸,央视《生命树》的爆火,打脸多少“流水线”年代剧

云舟史策
2026-01-30 23:05:34
网友称在奈晚推拿遭猥亵,51岁涉事技师被行拘7日;门店:涉事店员才来3天

网友称在奈晚推拿遭猥亵,51岁涉事技师被行拘7日;门店:涉事店员才来3天

大风新闻
2026-02-04 14:10:03
上春晚的人形机器人,公布了!

上春晚的人形机器人,公布了!

青年家
2026-01-28 20:13:36
广州龙洞村“蝇贪蚁腐”疑云:谁在掏空村民的“钱袋子”呢?

广州龙洞村“蝇贪蚁腐”疑云:谁在掏空村民的“钱袋子”呢?

舆非娱
2026-02-04 13:58:50
重新从“电视”中学习历史

重新从“电视”中学习历史

新民周刊
2026-02-03 12:10:01
多名前员工称意外收到大疆发的新春礼盒 大疆:感恩付出 已连续发了多年

多名前员工称意外收到大疆发的新春礼盒 大疆:感恩付出 已连续发了多年

快科技
2026-02-04 00:10:45
2026-02-04 16:31:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14477文章数 66566关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

高市早苗扬言将自卫队写入宪法 外交部回应

头条要闻

高市早苗扬言将自卫队写入宪法 外交部回应

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

姜元来在大S墓碑前哭泣,与具俊晔拥抱

财经要闻

35岁入行,先被考证“割韭菜”

汽车要闻

全伪装雪地现身 一汽-大众纯电车型线索曝光

态度原创

艺术
数码
手机
本地
公开课

艺术要闻

一篇文章看懂“传统吉祥图案”的寓意

数码要闻

Intel计划复活内存业务:ZAM单芯片最高512GB 功耗比HBM降低50%

手机要闻

华为Mate 80 Pro Max明日开启30天预约申购,将有效改善供应难题

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版