网易首页 > 网易号 > 正文 申请入驻

6小时,200美元,0人类代码:Anthropic把AI编程推过了临界点

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】代码没有消失,但它不再是少数人特权。在「创造平权」的AI时代,真正稀缺的不再是编程能力,而是你是否有一个值得让机器为你燃烧几百美元算力的好想法。

真正让人不安的,不是AI提高生产力,而是AI开始主导「生产关系」。

Anthropic最危险的进步,不是AI会写代码,而AI开始独自把项目做完。

一句话需求、6个小时、200美元。


没有产品经理、没有程序员、没有设计师,甚至全程人类补一行代码。

Anthropic把Claude丢进一个任务里:做一套完整的复古游戏编辑器。

结果,Claude没有只交出一个像样的页面。

它自己拆需求,自己写代码,自己测试,自己返工,最后交出一个真的能跑起来的成品。






在Anthropic这次实验里,AI已经不只是生成代码,而是在逼近交付。

过去我们聊AI编程,聊的是它写得快不快。现在问题变成了:它能不能连续工作几个小时,在第5轮、第10轮修改里不跑偏,最后把东西交出来。

Anthropic这次给出的答案是:能。

但前提不是把AI当一个人使,而是把它组织成一个团队。


原文链接:https://www.anthropic.com/engineering/harness-design-long-running-apps

AI不是不聪明,而是不稳定

过去的AI很像一个天赋很高的实习生。

第一版,冲得很猛。

第一个页面,出得很快。

第一轮代码,看上去也像那么回事。

但任务一拉长,它就开始乱:

逻辑散了,上下文丢了。

该修的没修,该测的没测。

最麻烦的是,它常常会提前进入一种「看起来做完了」的状态。

Anthropic点得很准:问题不一定出在智力上,而是出在长程执行上。

Anthropic做了一个对照实验,结果很残酷。

单智能体模式下,AI用20分钟、9美元,也做出了一个「像游戏编辑器」的东西。


问题是,一上手就露馅——

交互没打通;实体没正常响应;核心玩法直接失灵。



这说明一件事:

以前大家总以为AI不行,是因为还不够聪明。

现在看,很多时候真正拖AI后腿的,不是智商,而是稳定性

很多人一说AI记不住,第一反应都是:那就给它更大的上下文窗口。

听起来很合, 但Anthropic这次泼了一盆冷水。

窗口更大,不一定更强。很多时候,只是把混乱一起放大了。

东西越堆越多,但真正重要的主线,反而越容易被淹掉。这就是所谓的「上下文腐烂」。

更麻烦的是,模型还容易高估自己。

Anthropic发现,程序明明一跑就崩,模型却觉得自己做得不错。

于是单智能体会掉进两个坑:一边越写越乱;一边越乱越觉得自己没问题。

这就是为什么,单纯靠更大模型、更长窗口、更高token上限,AI并不能独立完成项目交付。

为了取得突破,Anthropic Labs成员Prithvi Rajasekaran探索了一些新颖的AI工程方法。


这些方法在两个截然不同的领域中均适用:一个由主观品味定义,另一个则以可验证的正确性和可用性为准。

受对抗生成网络(GANs)的启发,他设计了一种包含生成器和评估器的多智能体结构。

没造「超人」,但Anthropic造了神团队

这次最关键的变化,不是参数。不是窗口。也不是什么神秘提示词。

真正的变化是,Anthropic不再逼一个AI单枪匹马干完整个项目。

它开始让AI分工。

这套结构很像一个小型产品团队。

  • Planner,负责想清楚。它先把一句模糊需求,扩成规格,定义产品到底要做什么。

  • Generator,负责动手。它下场写代码,搭前后端,接交互,做集成,一轮轮推进。

  • Evaluator,负责挑错。它不负责体面。它只负责验收。点页面、试按钮、查数据库、测接口,把问题一个个揪出来,再打回去重做。


最后一步特别关键,因为一边写,一边给自己打分,最后AI很容易说服自己:差不多就行。

但把两者拆开,很多本来会被糊弄过去的问题,就过不去了。

拿那套复古游戏编辑器来说,Planner最初拿到的只有一句话需求。

但最后扩出来的,是一份包含16个功能、10个冲刺的规格书。

精灵动画、音效系统、行为模板、AI精灵生成、关卡设计助手、导出分享,全部被拆进流程里。

这已经不是「AI写代码」了,AI开始学会像团队一样做产品。

真正拉高质量的,是高压验收

今天很多AI产品都有一种共同气质——看着完整,配色安全,布局规整。

挑不出大错,但也没什么灵魂。这种东西叫AISlop「AI泔水」。说白了,就是「像成品的样子货」。

显然,Anthropic不满足于这种结果。

所以它不只让Evaluator查bug,还让它盯四件事:

设计质量、原创性、工艺感、功能性。

而且,它还故意把「原创性」和「设计质量」的权重拉高。

译成人话就是:别总交最安全的答案,做点真的像作品的东西出来。

这背后是一个很重要的信号:

很多人以为AI的创造力来自灵光一现,但很多时候,AI的创造力,恰恰是被高标准一点点逼出来的。

所以,下一阶段真正稀缺的能力,可能不是「谁更会生成」,而是「谁更会评价」。

你有多会挑错,决定AI最终能走多远。

最可怕的是,AI真能改到第10轮

这次实验最让人不安的,是Claude开始形成很强的闭环感。

还是看RetroForge,也就是那套复古游戏编辑器。

同样一句话需求。

单智能体版,20分钟,9美元。很快,也很便宜,但更像一个空壳。


三智能体版本,6小时,200美元。贵得多,慢得多,但最后结果完全不是一个量级。

它真的把27条验收标准,一条一条啃过去了。

这里面暴露出来的,是实打实的软件工程问题。比如:

函数写了,但事件没触发。

接口有了,但路由顺序错了,参数被错误解析。

这说明它做的,已经不只是拼页面,开始进入真正的工程地带。

另一个例子更夸张。

Claude用了不到4小时、约124.7美元,做出一个能在浏览器里跑的DAW,也就是数字音频工作站。

它有排列视图、有混音器、有传输控制、有实时波形预览。

还内置了一个AI智能体,可以直接理解自然语言的音乐指令。

你告诉它节奏、调性、旋律、鼓轨、混响,它能继续往下做。

更关键的是,Evaluator没有放过它:


恰恰是这些被揪出来的问题,证明了这套系统真的形成了闭环:

不止要做完,还要被打回去改。改到能过验收,才算结束。

这才是软件开发里最难、也最有价值的部分。

第一版从来不难,难的是第8版、第9版、第10版。

真正的分水岭,

AI第一次反复改到交付

Anthropic这次最值得行业警惕的,不是让Claude变成了一个更强的程序员。

而是让它第一次表现得像一个真正的产品组织,分工明确,各司其职。

这就是为什么,这次突破看起来不像「生产力升级」,更像一次「生产关系升级」。

过去,AI最强的能力是「生成一个答案」。

现在,它开始逼近另一种更难的能力:

围着一个目标,持续工作,持续修正,直到交付。

这才是真正的临界点。

代码没有消失,它只是在失去作为少数人特权的地位。

在这个「创造平权」的时代,你是否真的有一个值得让机器为你燃烧算力的好主意?

这才是最值得深思的问题。

参考资料:

https://www.anthropic.com/engineering/harness-design-long-running-apps

https://x.com/AnthropicAI/status/2036481033621623056

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一个网友说:张雪峰老师曾坦言,去了一家自助餐厅,人均400块

一个网友说:张雪峰老师曾坦言,去了一家自助餐厅,人均400块

岁月有情1314
2026-03-31 12:15:27
用一次就扔,这8个智商税产品,割了多少消费者的韭菜?

用一次就扔,这8个智商税产品,割了多少消费者的韭菜?

室内设计师有料儿
2026-02-13 16:19:38
澳门世界杯最新战报:21人已提前出局!国乒首轮10胜1负输阿根廷

澳门世界杯最新战报:21人已提前出局!国乒首轮10胜1负输阿根廷

全言作品
2026-03-31 22:36:40
原来她早已离世!生前给自己定寿衣,3200万遗产一分不留,全送给姐姐

原来她早已离世!生前给自己定寿衣,3200万遗产一分不留,全送给姐姐

不八卦掌门人
2026-03-30 22:55:08
被非洲强队震撼?U23国足队长:他们补时还能跑!每分钟都是收获

被非洲强队震撼?U23国足队长:他们补时还能跑!每分钟都是收获

我爱英超
2026-03-31 17:44:00
埃尔多安开出参战条件,以军近乎崩溃27国接到通知,伊朗熬赢了?

埃尔多安开出参战条件,以军近乎崩溃27国接到通知,伊朗熬赢了?

阿芒娱乐说
2026-04-01 00:09:53
单依纯演唱会好精彩!杨千嬅噘着嘴,陈奕迅全程黑脸,陈辉阳也在

单依纯演唱会好精彩!杨千嬅噘着嘴,陈奕迅全程黑脸,陈辉阳也在

舍长阿爷谈事
2026-03-30 11:25:34
选址确定!快环边上,广西大学新校区来了!

选址确定!快环边上,广西大学新校区来了!

鬼菜生活
2026-03-30 12:59:44
40场48球封神!拜仁高层硬气表态:想挖凯恩先掏2.17亿

40场48球封神!拜仁高层硬气表态:想挖凯恩先掏2.17亿

夜白侃球
2026-03-31 16:25:18
全球最小国家,只有32个女人,人均收入53万,渴望被中国原谅

全球最小国家,只有32个女人,人均收入53万,渴望被中国原谅

壹知眠羊
2026-03-18 07:10:00
TA:热刺与德泽尔比的战术适配度存疑,这笔签约是场“豪赌”

TA:热刺与德泽尔比的战术适配度存疑,这笔签约是场“豪赌”

懂球帝
2026-04-01 00:35:07
我离婚分了200万财产,我妈问我多少,我说净身出户

我离婚分了200万财产,我妈问我多少,我说净身出户

黄小乖的日记
2026-03-31 16:12:09
海航空姐合影,各个肤白貌美大长腿

海航空姐合影,各个肤白貌美大长腿

微微热评
2026-03-29 12:34:00
张雪回应曾骑100公里追节目组:那个时候不要脸 蓄谋已久的

张雪回应曾骑100公里追节目组:那个时候不要脸 蓄谋已久的

快科技
2026-03-31 16:46:40
生育大局已定:不出意外的话,从2026年起新生人口将迎来3大变化

生育大局已定:不出意外的话,从2026年起新生人口将迎来3大变化

江江食研社
2026-03-24 03:30:08
整条烟没拆封能放多久?90%的人都存错,好烟变废烟

整条烟没拆封能放多久?90%的人都存错,好烟变废烟

复转这些年
2026-03-17 10:38:39
著名专家预言:试管婴儿寿命仅40年,那首例试管婴儿如今怎样了?

著名专家预言:试管婴儿寿命仅40年,那首例试管婴儿如今怎样了?

青梅侃史啊
2026-03-28 19:22:24
特朗普这下玩脱了,美国建筑界狂嘲:耗资4亿修台阶竟不连着门

特朗普这下玩脱了,美国建筑界狂嘲:耗资4亿修台阶竟不连着门

张鼋卤说体育
2026-03-31 16:10:01
两性秘密:异性接触,女人其实不怕你占便宜,而是怕这三点不安全

两性秘密:异性接触,女人其实不怕你占便宜,而是怕这三点不安全

伊人河畔
2026-02-26 17:10:10
当“整容脸”混进央视年代剧,碰上天然脸演员,简直是降维打击!

当“整容脸”混进央视年代剧,碰上天然脸演员,简直是降维打击!

嘴角上翘的弧度
2026-03-24 01:01:55
2026-04-01 01:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14861文章数 66731关注度
往期回顾 全部

科技要闻

华为2025年销售收入8809亿,净利润680亿元

头条要闻

伊朗:准备好“迎接”美军到来 将战斗到底

头条要闻

伊朗:准备好“迎接”美军到来 将战斗到底

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

亲子
房产
游戏
教育
手机

亲子要闻

春天养好肝,和我一起种地来呗

房产要闻

重磅!海南城市更新拟出新政!

上一秒还在嘲笑瓦学弟,下一秒就去“抗癌”了

教育要闻

微专题:高考地理中的地理实验

手机要闻

vivo X300s线下上手:体验后,不吐不快!

无障碍浏览 进入关怀版