网易首页 > 网易号 > 正文 申请入驻

6小时,200美元,0人类代码:Anthropic把AI编程推过了临界点

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】代码没有消失,但它不再是少数人特权。在「创造平权」的AI时代,真正稀缺的不再是编程能力,而是你是否有一个值得让机器为你燃烧几百美元算力的好想法。

真正让人不安的,不是AI提高生产力,而是AI开始主导「生产关系」。

Anthropic最危险的进步,不是AI会写代码,而AI开始独自把项目做完。

一句话需求、6个小时、200美元。


没有产品经理、没有程序员、没有设计师,甚至全程人类补一行代码。

Anthropic把Claude丢进一个任务里:做一套完整的复古游戏编辑器。

结果,Claude没有只交出一个像样的页面。

它自己拆需求,自己写代码,自己测试,自己返工,最后交出一个真的能跑起来的成品。






在Anthropic这次实验里,AI已经不只是生成代码,而是在逼近交付。

过去我们聊AI编程,聊的是它写得快不快。现在问题变成了:它能不能连续工作几个小时,在第5轮、第10轮修改里不跑偏,最后把东西交出来。

Anthropic这次给出的答案是:能。

但前提不是把AI当一个人使,而是把它组织成一个团队。


原文链接:https://www.anthropic.com/engineering/harness-design-long-running-apps

AI不是不聪明,而是不稳定

过去的AI很像一个天赋很高的实习生。

第一版,冲得很猛。

第一个页面,出得很快。

第一轮代码,看上去也像那么回事。

但任务一拉长,它就开始乱:

逻辑散了,上下文丢了。

该修的没修,该测的没测。

最麻烦的是,它常常会提前进入一种「看起来做完了」的状态。

Anthropic点得很准:问题不一定出在智力上,而是出在长程执行上。

Anthropic做了一个对照实验,结果很残酷。

单智能体模式下,AI用20分钟、9美元,也做出了一个「像游戏编辑器」的东西。


问题是,一上手就露馅——

交互没打通;实体没正常响应;核心玩法直接失灵。



这说明一件事:

以前大家总以为AI不行,是因为还不够聪明。

现在看,很多时候真正拖AI后腿的,不是智商,而是稳定性

很多人一说AI记不住,第一反应都是:那就给它更大的上下文窗口。

听起来很合, 但Anthropic这次泼了一盆冷水。

窗口更大,不一定更强。很多时候,只是把混乱一起放大了。

东西越堆越多,但真正重要的主线,反而越容易被淹掉。这就是所谓的「上下文腐烂」。

更麻烦的是,模型还容易高估自己。

Anthropic发现,程序明明一跑就崩,模型却觉得自己做得不错。

于是单智能体会掉进两个坑:一边越写越乱;一边越乱越觉得自己没问题。

这就是为什么,单纯靠更大模型、更长窗口、更高token上限,AI并不能独立完成项目交付。

为了取得突破,Anthropic Labs成员Prithvi Rajasekaran探索了一些新颖的AI工程方法。


这些方法在两个截然不同的领域中均适用:一个由主观品味定义,另一个则以可验证的正确性和可用性为准。

受对抗生成网络(GANs)的启发,他设计了一种包含生成器和评估器的多智能体结构。

没造「超人」,但Anthropic造了神团队

这次最关键的变化,不是参数。不是窗口。也不是什么神秘提示词。

真正的变化是,Anthropic不再逼一个AI单枪匹马干完整个项目。

它开始让AI分工。

这套结构很像一个小型产品团队。

  • Planner,负责想清楚。它先把一句模糊需求,扩成规格,定义产品到底要做什么。

  • Generator,负责动手。它下场写代码,搭前后端,接交互,做集成,一轮轮推进。

  • Evaluator,负责挑错。它不负责体面。它只负责验收。点页面、试按钮、查数据库、测接口,把问题一个个揪出来,再打回去重做。


最后一步特别关键,因为一边写,一边给自己打分,最后AI很容易说服自己:差不多就行。

但把两者拆开,很多本来会被糊弄过去的问题,就过不去了。

拿那套复古游戏编辑器来说,Planner最初拿到的只有一句话需求。

但最后扩出来的,是一份包含16个功能、10个冲刺的规格书。

精灵动画、音效系统、行为模板、AI精灵生成、关卡设计助手、导出分享,全部被拆进流程里。

这已经不是「AI写代码」了,AI开始学会像团队一样做产品。

真正拉高质量的,是高压验收

今天很多AI产品都有一种共同气质——看着完整,配色安全,布局规整。

挑不出大错,但也没什么灵魂。这种东西叫AISlop「AI泔水」。说白了,就是「像成品的样子货」。

显然,Anthropic不满足于这种结果。

所以它不只让Evaluator查bug,还让它盯四件事:

设计质量、原创性、工艺感、功能性。

而且,它还故意把「原创性」和「设计质量」的权重拉高。

译成人话就是:别总交最安全的答案,做点真的像作品的东西出来。

这背后是一个很重要的信号:

很多人以为AI的创造力来自灵光一现,但很多时候,AI的创造力,恰恰是被高标准一点点逼出来的。

所以,下一阶段真正稀缺的能力,可能不是「谁更会生成」,而是「谁更会评价」。

你有多会挑错,决定AI最终能走多远。

最可怕的是,AI真能改到第10轮

这次实验最让人不安的,是Claude开始形成很强的闭环感。

还是看RetroForge,也就是那套复古游戏编辑器。

同样一句话需求。

单智能体版,20分钟,9美元。很快,也很便宜,但更像一个空壳。


三智能体版本,6小时,200美元。贵得多,慢得多,但最后结果完全不是一个量级。

它真的把27条验收标准,一条一条啃过去了。

这里面暴露出来的,是实打实的软件工程问题。比如:

函数写了,但事件没触发。

接口有了,但路由顺序错了,参数被错误解析。

这说明它做的,已经不只是拼页面,开始进入真正的工程地带。

另一个例子更夸张。

Claude用了不到4小时、约124.7美元,做出一个能在浏览器里跑的DAW,也就是数字音频工作站。

它有排列视图、有混音器、有传输控制、有实时波形预览。

还内置了一个AI智能体,可以直接理解自然语言的音乐指令。

你告诉它节奏、调性、旋律、鼓轨、混响,它能继续往下做。

更关键的是,Evaluator没有放过它:


恰恰是这些被揪出来的问题,证明了这套系统真的形成了闭环:

不止要做完,还要被打回去改。改到能过验收,才算结束。

这才是软件开发里最难、也最有价值的部分。

第一版从来不难,难的是第8版、第9版、第10版。

真正的分水岭,

AI第一次反复改到交付

Anthropic这次最值得行业警惕的,不是让Claude变成了一个更强的程序员。

而是让它第一次表现得像一个真正的产品组织,分工明确,各司其职。

这就是为什么,这次突破看起来不像「生产力升级」,更像一次「生产关系升级」。

过去,AI最强的能力是「生成一个答案」。

现在,它开始逼近另一种更难的能力:

围着一个目标,持续工作,持续修正,直到交付。

这才是真正的临界点。

代码没有消失,它只是在失去作为少数人特权的地位。

在这个「创造平权」的时代,你是否真的有一个值得让机器为你燃烧算力的好主意?

这才是最值得深思的问题。

参考资料:

https://www.anthropic.com/engineering/harness-design-long-running-apps

https://x.com/AnthropicAI/status/2036481033621623056

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赵樱子回应蒋毅妻子喊话,直言自己就是没边界感,习惯了贴贴抱抱

赵樱子回应蒋毅妻子喊话,直言自己就是没边界感,习惯了贴贴抱抱

芊手若
2026-05-16 06:40:50
河南一房东发现租客怀孕不让在家坐月子,提前搬走后房东却不退剩余房租和押金

河南一房东发现租客怀孕不让在家坐月子,提前搬走后房东却不退剩余房租和押金

黄河新闻网吕梁
2026-05-16 16:35:40
内蒙古自治区兴安盟政协原党组成员、副主席赵田喜严重违纪违法被“双开”

内蒙古自治区兴安盟政协原党组成员、副主席赵田喜严重违纪违法被“双开”

界面新闻
2026-05-16 19:13:47
她是梅花奖获得者,母亲曾红遍大西北,如今在《主角》演配角火了

她是梅花奖获得者,母亲曾红遍大西北,如今在《主角》演配角火了

凡知
2026-05-16 19:56:44
公交集团正式员工已经躺平不了了,想要混到退休不太可能

公交集团正式员工已经躺平不了了,想要混到退休不太可能

娱乐圈见解说
2026-05-09 00:23:44
神秘的AIM-260首次公开亮相

神秘的AIM-260首次公开亮相

航空知识
2026-05-16 21:18:36
仅售15.68万!蔚来新车官宣,正式上市!

仅售15.68万!蔚来新车官宣,正式上市!

新浪财经
2026-05-16 09:51:24
陈皮和它是绝配!每天这样喝,护肝排毒,降血脂养脾胃,血管年轻

陈皮和它是绝配!每天这样喝,护肝排毒,降血脂养脾胃,血管年轻

阿兵科普
2026-05-16 18:09:05
国家阶级固化完成:这世界上不可能再有国家可以取代中美了!

国家阶级固化完成:这世界上不可能再有国家可以取代中美了!

天老爷
2026-05-08 15:50:54
砍14分5助还被指责!顶级后卫在场上出工不出力,张云松看走眼了

砍14分5助还被指责!顶级后卫在场上出工不出力,张云松看走眼了

老叶评球
2026-05-16 10:50:18
血战长沙的李玉堂,在台湾被枪决,临刑前的一句话让人痛心!

血战长沙的李玉堂,在台湾被枪决,临刑前的一句话让人痛心!

史之铭
2026-05-16 15:34:38
泰国赛第6日:国羽3胜2负!石宇奇退赛,陈雨菲卫冕战对决山口茜

泰国赛第6日:国羽3胜2负!石宇奇退赛,陈雨菲卫冕战对决山口茜

钉钉陌上花开
2026-05-16 20:43:24
一个女人老实不老实,看这一个地方就够了,一眼就能将她看透

一个女人老实不老实,看这一个地方就够了,一眼就能将她看透

千秋文化
2026-05-16 20:32:50
云南一男子凌晨在民宿前台偷拿房卡,带着女朋友一起“免费”入住,民宿回应:房费才70元,没有报警处理

云南一男子凌晨在民宿前台偷拿房卡,带着女朋友一起“免费”入住,民宿回应:房费才70元,没有报警处理

大风新闻
2026-05-16 18:33:03
突发!ChatGPT上线AI理财,美国网友却炸锅了

突发!ChatGPT上线AI理财,美国网友却炸锅了

雷科技
2026-05-16 14:05:14
国宴太讲究了,细节拉满,餐具中西式都有,走的是西餐分餐路线

国宴太讲究了,细节拉满,餐具中西式都有,走的是西餐分餐路线

魔都姐姐杂谈
2026-05-15 13:14:45
4-1,恭喜马刺,9年了,冠军我们来了...

4-1,恭喜马刺,9年了,冠军我们来了...

体育新角度
2026-05-16 21:23:34
禹作敏最嚣张的时候有多无法无天?

禹作敏最嚣张的时候有多无法无天?

尚书乔
2024-11-10 00:00:03
造词狂魔贾跃亭

造词狂魔贾跃亭

三言科技
2026-05-16 08:07:15
一口气看了央视《主角》十集后,我感慨:幸好刘浩存还没出场

一口气看了央视《主角》十集后,我感慨:幸好刘浩存还没出场

娱乐故事
2026-05-13 23:23:58
2026-05-16 22:19:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15227文章数 66869关注度
往期回顾 全部

科技要闻

涨的是车价,要的是老命

头条要闻

"特朗普移动"手机开始发货 59万人交了5900万美元定金

头条要闻

"特朗普移动"手机开始发货 59万人交了5900万美元定金

体育要闻

马刺2号,少年老成,这集看过?

娱乐要闻

谢霆锋北京街头骑行被偶遇,侧颜帅炸

财经要闻

造词狂魔贾跃亭

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

艺术
游戏
本地
家居
公开课

艺术要闻

17亿美元!中东首个Sphere场馆,落地阿布扎比!

时代落幕!国行NS天猫店将终止运营:结束了

本地新闻

用苏绣的方式,打开江西婺源

家居要闻

110㎡淡而有致的生活表达

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版