网易首页 > 网易号 > 正文 申请入驻

狂奔AGI,Claude年终封王!自主编码近5小时震惊全网

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】AI是否已撞上天花板?这份「最重要的图表」直击灵魂:2019-2025年任务时长每几个月翻倍,揭示编码智能体从「短跑选手」向「马拉松冠军」的华丽蜕变。AGI不是梦,而是触手可及的现实!

2025年就要结束了,原来真正的高手,隐藏在「民间」!

不是谷歌、不是OpenAI,是Anthropic王者编程模型Claude Opus 4.5。


在METR最新公布报告称,Claude Opus 4.5已能够持续自主编码「长达5小时不崩」。

就连OpenAI最强编程模型——GPT-5.1-Codex-Max也甘拜下风。


现如今,全网都在为Claude Opus 4.5编码实力震撼。




AI编码智能体能处理的任务时长不仅在指数级增长——其增速还在持续提升

2019-2024年:任务时长每7个月翻一倍

2024-2025年:任务时长每4个月翻一倍


很多人第一次看到这条曲线,会本能地摇头。

有人不理解。有人不愿意接受。

但一个事实越来越清晰:AI编码智能体能连续完成的任务,正在从「分钟级」冲向「小时级」,并且加速度还在上升。

网友认为这是关于AI最重要的图表:


这张图为什么被称为「最重要的图表」?

因为它在回应一个关键的问题:

AI是否撞墙了?AGI是不是另一个乌托邦?2025年,AI到底进步了多少?

普通用户感知不强,很正常。对大多数人来说,模型早就能应付日常提问:

「推荐部电影」「解释这个概念」「写段文案」。

但真正的变化发生在另一条战线上:编码智能体

而这恰恰是多数人(包括记者与政策制定者)难以触及的形态。

这些进展看似微小,但累积起来却意义非凡。


2026年4月,首批AI智能体将能独立完成一个完整的人类工作日;

2026年底,AI能完成半周的任务量;

2027年底,AI能完成2个月的任务量;

2028年底,AI能完成人类好几个月的工作量;

到2030年,AI能承担一些小型企业或组织的大部分管理工作。

AI指数级增长

智能体时代已来

为了量化比较AI与人类能力,今年3月METR提出了一个新指标:50%任务完成时间跨度(50%-task-completion time horizon)。

换句话,把AI当新人:给它一项工作,看它做到「50%的概率能做成」时,这项工作的人类平均耗时有多久。

GPT-5.1-Codex-Max,已能完成长达2小时53分钟的软件工程任务(成功率50%),能力较o1提升4倍

Claude Opus 4.5的50%时间跨度约为4小时49分钟。这已是迄今为止公布的最长的时间跨度。


尽管50%任务完成时间跨度较长,但Opus 4.5模型的80%时间跨度仅为27分钟,与过往模型表现相当,且低于GPT-5.1-Codex-Max模型的32分钟。


但Opus 4.5在50%与80%时间跨度之间的差距,反映出它的逻辑成功率曲线更为平缓,这意味着Opus模型在耗时较长的任务上具有差异化优势。

甚至有人认为,Claude Code已足够接近通用人工智能的定义。


最后这个说法或许夸张——却折射出某种现实。

2025年堪称AI讨论最混沌的一年,实际进展与舆论焦点之间的裂痕从未如此巨大。

但明年或将迎来转变——当编码智能体的影响力渗透至社会经济各个角落时,人们终将目睹它的威力。但愿到那时,我们还能来得及做好充分准备。

AGI逼近

记忆成最后关卡

智能体能把任务做得越来越久,并不奇怪。

此前的研究普遍指向四大原因:

  1. 推理更强:能把大任务拆成小任务

  2. 工具更熟:会写代码、会查网页、会跑脚本

  3. 自纠错更稳:出错后能回滚、能重试、能继续推进

  4. 收益非递减:变准一点点,能做的任务跨度会暴增


例如,新一代模型能更好地规划子任务、调用外部工具(如代码编写、网页浏览)并在出错时自我纠正,从而在长达数小时的任务链条中保持高成功率。

当然,在畅想美好前景的同时,我们也要看到目前的局限。

但当任务跨度从「小时」走向「工作日」,新的麻烦会冒出来:

  • 上下文会丢:越做越忘前面说过什么

  • 偏差会积累:小错误滚成大灾难

  • 目标会漂移:做着做着就跑题

说到底,它们都指向同一个核心:长期记忆。


记忆:通往AGI的最后难题

AI几乎所有能力短板,最后都会牵扯到记忆。

你可以把当前大模型想成:一个极聪明、反应极快,但「下班就失忆」的新人。

它能写代码、能推理、能写文章。 但会话一结束,它几乎不记得自己做过什么。

现在很多智能体的「记忆」,主要靠两种拼装:

  • 强检索工具:需要时去搜(像在代码库里 grep)

  • 总结压缩塞进上下文:把过去内容压成几段话,再喂回去

虽然信息检索技术已有不小进展,但即便是当前最优秀的RAG(检索增强生成)系统,其准确率也只有约90%。

不断扩大的上下文窗口,确实在改善这个问题:更大的窗口意味着可以将更多数据同时输入模型,从而支持模型更有效地在庞大的记忆索引中「阅读」。

但即便如此,要达到AGI级别的「细致入微」的记忆水平,仍然需要在底层架构上突破

而且,更大的问题是:没有任何系统真正实现了「自我学习


没有长期记忆,AI就无法像人一样「越用越聪明」,无法从错误中学习,更谈不上积累「常识」和「智慧」。

仅仅「记住」还不够,智能体必须能从经验中主动「学习」。

与智能体不同,人类大脑擅长将短期经历转化为长期记忆,在日积月累中形成知识网络和经验教训。


AGI若想达到人类智能的广度与深度,同样需要这样的记忆系统

业界普遍认为,记忆是通用智能最后但最关键的一块拼图。

换言之,AI现有的「算力」和「智力」,或许已逼近AGI所需,唯一欠缺的是像人一样拥有持久而丰富的记忆。

谁能最先破解「记忆难题」,谁就将在这场AGI竞赛中占据决定性优势。

明年的突破

长期被动记忆

现在的智能体拥有非常强大的「搜索」,比如使用Cursor时,你会发现它几乎能完美从整个代码库中检索信息。

但它们用的依然是「主动记忆」机制:智能体需要自己去「找」记忆,而不是这些记忆自然存在于它的思维中。

这远远不够。

一个运行文本搜索工具grep的智能体,不等于拥有有效记忆的智能体。就像一个计算器并不等于一个数学家。


给智能体一个「搜索记忆工具」不是解决方案。

那么,真正强大的AI记忆系统需要具备什么?

真正的记忆,必须是像人类一样,无需检索、直接知道

而目前的被动记忆机制还非常原始,一旦任务复杂度稍微提升,就会彻底崩塌,智能体又回到「全靠搜索」的状态。

纽约通用智能公司创始人Andrew Pignanelli预期,未来12个月AI行业会在「被动记忆系统」上取得显著进展。


在接下来的一年中,记忆系统(尤其是智能体的学习能力)将成为AI世界的核心议题,并被正式确认为通向AGI的最后一步

OpenAI成功推出ChatGPT记忆功能后,Claude近期已跟进,而其他各大模型公司也将纷纷完善自家记忆系统。

  • 长期记忆工具的接入体验将显著提升,尤其随着上下文窗口的持续扩展;

  • 睡眠时间智能体」会在你不知情的情况下,阅读你的邮件、文件和表格,构建背景知识和个性化记忆;

  • 实时智能体」将在检索信息方面趋近完美,你的偏好、语言风格、行为习惯都会被快速融入其中。

短期内,自动注入上下文的方式还不会特别自然,为了更准确的记忆检索,大家普遍都会接受「响应更慢」的现实。

但随着AI变得越来越「懂你」,你对AI的依赖也会越来越强。

在消费者端,人们可能注意到「对话开始前有点卡」,但不知道背后是一个庞大的记忆系统在默默运行。

到今年年底,「上下文腐烂」问题(context rot)也将被攻克,方式包括:

  • 启用「遗忘机制」;

  • 专为长期对话设计的上下文清理系统;

  • 更先进的「上下文检索」技术(能从巨大信息堆中精准抽出关键内容)

未来,用户将不再通过文件树导航信息,而是由AI智能体直接帮你检索和访问所需数据。像Replit和Lovable这样的代码生成平台已经在这方面先行一步。

明年春天(2026年)很可能出现由「新一代多模态大模型」与「注意力机制之外的记忆系统」结合带来的突破。

未来12个月内,「记忆+学习」领域可能会出现突破性进展。

OpenAI等领军团队都在全力攻关持续学习和自我记忆技术;一旦他们取得突破,并将其应用在顶尖模型上,我们也许会惊呼:AGI已经出现了。

AGI曙光已现

综合当前的发展态势,可以说:AGI已不再是遥不可及的科幻梦想,而可能近在咫尺。

这种预测并非无穴来风。

回顾过去一年,我们多次低估了AI进化的速度。

GPT-5虽然发布时评价褒贬不一,但其实在长任务执行方面比前代有了大幅提高;Claude 4.5的惊艳表现,更是证明了进步的非线性:当关键技术取得突破时,曲线会突然跃升。

如今,你可以在网上了解到,随着机器智能成为首要的生产要素,正在涌现出新型组织。

这是首次,这一新要素为我们人类提供了改进流程本身的思路。依靠AI,微型团队,竟能产出超越过去数十人甚至上百人团队的工作成果,尤其是在某些专注的软件领域,生产力增长令人震惊。

这种爆发式的效率,真的很难不让人感到兴奋。

这是某种意义上的「阿特拉斯卸下重担」的时刻,是智能生产力「起飞」的征兆。

与2023年那种诗意盎然的「AI觉醒叙事」相比,如今的这一切,显得更平实务实,但更加震撼,更加真实。

如果记忆问题迎来解决,AI能力或将再次爆发。


届时,AI智能体将不仅仅是无休止重复劳作的「工具」,而会变成越用越聪明、与您一同成长的「数字同事」。

它能记住你的偏好。

它能记住你踩过的坑。

它能从项目里提炼经验。

然后在下一次合作里,主动帮你把效率再推高一截。

这正是许多人对AGI在人类社会角色的愿景。

参考资料:

https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

https://www.generalintelligencecompany.com/writing/memory-is-the-last-problem-to-solve-to-reach-agi

https://www.shippingapps.dev/writings/memory-last-problem

https://x.com/tszzl/status/2002488418887168297

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
打响抗日第一枪之人,不是国民党、共产党,而是土匪出身的马占山

打响抗日第一枪之人,不是国民党、共产党,而是土匪出身的马占山

浩渺青史
2026-06-01 02:48:38
四人帮被密捕的消息是如何泄露的?北京传来暗语:老娘心肌梗死

四人帮被密捕的消息是如何泄露的?北京传来暗语:老娘心肌梗死

谈古论今历史有道
2026-06-03 16:30:03
国家出手了!揪出网暴抗灾女干部的“幕后黑手”,下场大快人心

国家出手了!揪出网暴抗灾女干部的“幕后黑手”,下场大快人心

笑饮孤鸿非
2026-06-02 23:03:14
国家开发银行原行务委员蒋志刚接受审查调查

国家开发银行原行务委员蒋志刚接受审查调查

政知新媒体
2026-06-02 19:34:16
“不理解但尊重”,家长打扮粉嫩幼态送娃上学,网友:很不得体

“不理解但尊重”,家长打扮粉嫩幼态送娃上学,网友:很不得体

蝴蝶花雨话教育
2026-06-03 00:05:12
全线暴跌,近28万人爆仓!有人单笔爆仓金额近2亿元

全线暴跌,近28万人爆仓!有人单笔爆仓金额近2亿元

每日经济新闻
2026-06-03 10:10:12
随着中国男足0射门+0-3不敌非洲劲旅,土伦杯最新积分榜出炉

随着中国男足0射门+0-3不敌非洲劲旅,土伦杯最新积分榜出炉

侧身凌空斩
2026-06-02 23:06:26
天气 | 天津今起4天雨!预计这时下!昨夜局地中到大雨!都下哪了?

天气 | 天津今起4天雨!预计这时下!昨夜局地中到大雨!都下哪了?

天津广播
2026-06-03 08:23:34
寿命长不长,看脸就知道?寿命短的人,脸上一般会有这5个特征!

寿命长不长,看脸就知道?寿命短的人,脸上一般会有这5个特征!

芹姐说生活
2026-06-02 23:16:44
一种比三文鱼营养却更便宜的鱼,真心建议你常吃

一种比三文鱼营养却更便宜的鱼,真心建议你常吃

食栗派
2026-05-22 21:50:33
郭士强:两场热身赛以短训营球员为主 考察和积累国际大赛的经验

郭士强:两场热身赛以短训营球员为主 考察和积累国际大赛的经验

狼叔评论
2026-06-03 12:02:07
日媒:吓破胆!小泉指责中方航母针对日本,扬言警惕,全程监视

日媒:吓破胆!小泉指责中方航母针对日本,扬言警惕,全程监视

老癘体育解说
2026-06-02 13:25:41
屋漏偏逢连夜雨!60岁郭富城再迎噩耗,方媛疑产后抑郁是冰山一角

屋漏偏逢连夜雨!60岁郭富城再迎噩耗,方媛疑产后抑郁是冰山一角

悄悄史话
2026-05-28 11:44:23
梦鸽李天一赴美不归?看到85岁李双江“现状”,原来杨洪基没说谎

梦鸽李天一赴美不归?看到85岁李双江“现状”,原来杨洪基没说谎

阿纂看事
2024-11-05 11:54:58
6月2日俄乌:俄罗斯连续2个月领土净收益为负值

6月2日俄乌:俄罗斯连续2个月领土净收益为负值

山河路口
2026-06-02 17:43:10
鸠山由纪夫戳破真相,当年免掉千亿赔款,实则给日本立了个死规定

鸠山由纪夫戳破真相,当年免掉千亿赔款,实则给日本立了个死规定

云霄纪史观
2026-05-20 13:16:50
重庆飞广州,飞机落地滑行58分钟引众怒:飞机“原地磨蹭”

重庆飞广州,飞机落地滑行58分钟引众怒:飞机“原地磨蹭”

米果说识
2026-06-03 10:06:49
自然资源部对江西湖南贵州启动地质灾害防御Ⅳ级响应

自然资源部对江西湖南贵州启动地质灾害防御Ⅳ级响应

澎湃新闻
2026-06-03 15:38:18
日本疯狂备战,中国视而不见?面对日本的膨胀,中国该如何应对?

日本疯狂备战,中国视而不见?面对日本的膨胀,中国该如何应对?

静夜史君
2026-06-02 01:05:08
实名举报:一非监考教师进入考场,指导考生!教育局已介入

实名举报:一非监考教师进入考场,指导考生!教育局已介入

山东教育
2026-06-03 12:11:22
2026-06-03 17:11:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15376文章数 66899关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

94版《三国演义》成观众心中"白月光" 多位扮演者离世

头条要闻

94版《三国演义》成观众心中"白月光" 多位扮演者离世

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

本地
教育
艺术
数码
军事航空

本地新闻

用杨柳青年画的方式,打开天津

教育要闻

盒子里的球怎么算组合?方法太简单!

艺术要闻

二十年前割麦的场景

数码要闻

告别充电线 闪极直插口充电宝上市 一机搞定苹果安卓

军事要闻

美伊互袭波及多国 过去一夜中东局势骤然升级

无障碍浏览 进入关怀版