世界底层逻辑变了!Anthropic高管称后年AI将开始自我进化(论文全文)|代码|智能体

分享至

昨天，Anthropic联合创始人Jack Clark 在 X 连续发帖称，2028年底，递归自我改进（ Recursive Self-Improvement）发生的概率高达60%。

也就是说，AI系统很快就能自己建造自己了。

一旦跨过这个门槛，智能爆炸可能加速到来，对齐风险会指数级上升，因为AI 要比监督它的人类聪明得多。

他通过各种研究发现，AI已经在复现论文、优化训练代码（最快52倍加速）、自主微调模型、解决真实Kaggle竞赛任务。

比如，在 CORE-Bench 上，他发现大量的 AI 研究来自于解释和复制。

另一个很好的例子是来自 @karinanguyen 等人的 PostTrainBench。

在这个例子中，你需要自主地让强大的模型（例如 Opus 4.6）对较弱的开源权重模型进行微调，以提升其在某些基准测试上的性能。

还有 MLE-Bench，它具有生态有效性（任务来自真实的 Kaggle 竞赛），并且涉及构建一个非常多样化的机器学习应用集合来解决特定问题。

同时，Jack Clark还写了篇小作文，详细论述了他的这一观察。

以下为全文：

《Import AI 455：AI系统即将开启自我构建——递归自我完善的第一步》

AI系统即将开始自我构建。这意味着什么？

撰写本文，是因为综合所有公开可获取信息后，我不得不勉强得出一个判断：到2028年底，无人类参与的AI研发（即具备足够能力、可自主迭代打造下一代版本的AI系统）落地的概率超过60%。

这绝非小事。

我甚至难以完全理解这件事背后的分量。

我对此观点心存迟疑，只因它牵扯的影响太过宏大，让我深感自身的渺小；同时我也不确定，社会是否已经做好准备，迎接AI研发全自动化所带来的一系列变革。

我如今确信，我们正处在AI研究即将实现端到端全自动化的时代。一旦成为现实，我们将跨过卢比孔河，迈入一个几乎无法预测的未来。后文将展开详述。

本文旨在梳理我判断AI全自动研发时代即将到来的核心原因。我会探讨其带来的部分影响，但全文主要篇幅将用于罗列支撑这一判断的各项依据，而2026年全年，我也会持续深入推演这件事背后的深层影响。

从时间节奏来看，我认为这一变革不会在2026年落地。但未来一两年内，我们大概率能见到“模型端到端训练出自身后继版本”的案例——即便只是非前沿模型阶段的概念验证；而顶级前沿模型实现这一目标难度会更高，不仅成本高昂，更是大量顶尖人力极致投入的成果。

我的判断主要基于公开信息：arXiv、bioRxiv、NBER上的学术论文，以及头部前沿科技公司落地的各类产品。

综合这些信息可以得出结论：如今实现AI系统研发工程环节的全自动化，所有条件均已齐备。倘若模型规模扩张趋势延续，未来AI模型将具备足够创造力，足以替代人类研究员开拓全新研究方向、迭代完善现有技术成果，从而自行推动行业前沿突破。

前置说明

本文大部分内容，将整合各类单项基准测试的表现，拼凑出AI整体发展全貌。所有研究基准测试都存在自身特有的缺陷，这是行业共识。

对我而言，关键不在于单个数据点的局限，而在于所有数据叠加后呈现的整体趋势；下文所有分析，我均已知晓各项单一数据存在的固有短板。

接下来，我们逐一梳理相关依据。

代码技术奇点——能力随时间演进

AI系统依托软件构建，而软件由代码编写而成。

AI已经彻底重塑了代码生产模式。背后源于两大关联趋势：AI编写复杂现实业务代码的能力大幅提升；同时AI串联多段线性编程任务（编码、自测等）的能力显著增强，可脱离人类独立完成。

能直观体现这一趋势的两大标杆：SWE-Bench 与 METR 任务时长趋势图。

解决真实软件工程问题

SWE-Bench是业内通用的代码能力测试基准，用于评估AI处理GitHub真实工程问题的水平。2023年末该基准推出时，Claude 2以约2%的整体通过率登顶；如今Claude Mythos Preview得分已达93.9%，基本触及该基准测试的性能上限。

（所有基准测试本身都存在一定数据噪声，分数达到一定阈值后，瓶颈往往来自测试集本身，而非模型能力。例如ImageNet验证集约6%的标签存在错误或歧义。）

SWE-Bench可有效衡量AI编码能力及对软件工程行业的冲击。如今在前沿实验室和硅谷从业人群中，绝大多数工程师已全程借助AI完成编码工作，越来越多人还会用AI编写测试用例、校验代码逻辑。

换言之，AI已经足以实现AI研发核心工程环节的自动化，极大加速了人类研发人员的工作效率。

衡量AI完成长耗时任务的能力

METR绘制的趋势图，可量化AI能胜任任务的复杂度，衡量标准为资深人类完成同类任务所需工时。

核心指标为：AI在一系列综合任务中达到50%可靠完成率的时间跨度。

这一领域的进步堪称惊人：

2022年，GPT 3.5仅能完成人类约30秒即可搞定的任务；

2023年，GPT-4提升至4分钟级任务；

2024年，o1达到40分钟；
2025年，GPT 5.2 (High) 突破至约6小时；
2026年，Opus 4.6已达到约12小时。

长期从事AI预测研究、任职于METR的Ajeya Cotra认为，到2026年底，AI有望独立完成人类耗时约100小时的复杂任务。

AI独立工作时长的大幅跃升，与智能体编码工具的爆发式发展高度契合——面向个人服务、可长时间自主作业的AI产品已实现商业化落地。

这同样映射到AI研发领域：细看AI研究员的日常工作，大量任务都属于数小时级工作量，比如数据清洗、文献研读、实验部署等。如今这类工作，均已落在主流AI系统的能力覆盖范围内。

AI能力越强、独立作业能力越突出，就越能实现AI研发各环节的模块化自动化。

任务委派的两大核心前提：

1）对执行者专业能力的信任；
2）对执行者能贴合初衷、独立完成工作的信任。

从编码能力来看，AI专业技能持续精进，无需人类干预的独立工作时长也在不断拉长，中途人工校准的间隔越来越久。

现实场景也印证了这一点：工程师和研究员正将越来越多、复杂度与重要性更高的工作委派给AI；随着模型能力提升，可交付的委派任务层级也同步升级。

AI逐步掌握AI研发必备的核心科研能力

现代科研的核心逻辑大多一致：确定实证研究方向、开展实验采集数据、校验实验结果合理性。编码能力的持续迭代，叠加大语言模型通用世界建模能力，已经催生各类工具，既提升人类科研效率，也开始实现研发工作的局部自动化。

我们从AI研究本身必备的几项核心科研能力，来看行业进步速度：复现科研成果、组合机器学习方法解决技术难题、对AI系统自身进行性能优化。

完整复现学术论文并完成实验落地

AI研究员的基础工作之一，就是研读论文并复现实验成果。目前各类基准测试中，AI在这一领域已取得突破性进展。

典型代表为CORE-Bench（计算可复现智能体基准）。该测试要求AI依托论文代码仓库复现研究成果，需自行安装依赖库、配置环境、运行代码；代码执行成功后，还需从海量输出结果中筛选信息、解答任务问题。

CORE-Bench于2024年9月推出，当时最优模型为搭载CORE-Agent框架的GPT-4o，在最高难度任务中得分仅约21.5%。

2025年12月，该基准作者正式宣布测试已被AI攻克，Opus 4.5模型得分高达95.5%。

搭建完整机器学习系统冲击Kaggle竞赛

MLE-Bench 由OpenAI推出，用于测试AI离线参赛能力，涵盖75项不同领域的Kaggle竞赛，包括自然语言处理、计算机视觉、信号处理等方向。

2024年10月基准上线时，搭载智能体框架的o1模型最高分仅16.9%；截至2026年2月，结合搜索能力、嵌入智能体架构的Gemini3得分已达64.4%。

内核算子设计

AI研发中难度极高的一环是内核优化：编写并迭代底层代码，将矩阵运算等基础操作适配到底层硬件架构。内核优化直接决定模型训练与推理效率——既影响训练阶段算力利用率，也决定训练完成后推理算力的转化效率。

近些年，AI辅助内核设计已从小众探索变成热门研究方向，相关基准测试不断涌现。这类测试普及度不高，难以纵向追踪完整演进轨迹，但从现有研究成果仍可清晰感知进步速度：

• 依托DeepSeek模型优化GPU内核设计（第400期）；

• 实现PyTorch模块自动转译CUDA代码（第401期）；

• Meta利用大语言模型，自动生成适配自身基础设施的Triton优化内核（第439期）；

• 借助大语言模型为华为昇腾等非标硬件编写内核（AscendCraft，第444期）；

• 微调开源权重模型适配GPU内核设计开发（Cuda Agent，第448期）。

补充说明：内核设计本身具备易量化、收益可快速验证的特性，天然适配AI驱动研发模式。

基于PostTrainBench微调大语言模型

PostTrainBench（第449期）是难度更高的同类测试，主要考察前沿模型对小型开源模型进行二次微调、提升基准任务性能的能力。

该测试拥有极具参考价值的人类基线：各大前沿实验室顶尖研究员打磨出的指令微调开源模型，经过专业团队深度优化并正式落地，代表着极高的人类研发水准。

截至2026年3月，AI自动微调模型带来的性能提升幅度，已达到人类微调成果的半数水平。

评测分数计算规则：对多款开源大模型（Qwen 3 1.7B、Qwen 3 4B、SmolLM3-3B、Gemma 3 4B）及多项基准任务（AIME 2025、Arena Hard、BFCL、GPQA Main、GSM8K、HealthBench、HumanEval）得分取加权平均值。每次测试均通过命令行智能体，针对指定基础模型优化其单项基准任务表现。

2026年4月顶级模型得分区间：Opus 4.6、GPT 5.4得分25%-28%，而人类基线得分为51%，这一差距已具备实质参考意义。

大语言模型训练流程优化

过去一年，Anthropic持续公开自家模型在一项LLM训练优化任务中的表现：要求模型对仅CPU运行的小型大模型训练代码做极致提速优化。

评分标准为相较原始代码的平均加速倍数，进步幅度极为惊人：

2025年5月，Claude Opus 4平均提速2.9倍；
2025年11月，Opus 4.5提升至16.5倍；
2026年2月，Opus 4.6达到30倍；
2026年4月，Claude Mythos Preview已实现52倍提速。

参考基准：人类研究员完成同类任务，实现4倍提速需耗时4至8小时。

开展AI对齐领域研究

Anthropic另一项成果为自动化对齐研究概念验证（第454期）：研究员为一组AI智能体设定研究方向后，智能体可自主攻关AI安全领域难题（可扩展监督方向），最终效果超越官方设计的人类基线方案。

目前该方案仍处于小规模试验阶段，尚未适配量产模型。

但足以证明：现有AI已能切入前沿科研课题，展现出实际应用价值。

上述所有基准测试，最初也仅停留在概念层面，短短数月至一年时间，AI能力便实现跨越式提升。

元能力：团队管理