网易首页 > 网易号 > 正文 申请入驻

Anthropic联创:两年内,AI将像孢子一样自我繁殖!

0
分享至


新智元报道

编辑:倾倾

【新智元导读】AI自主训练的成绩单出炉了!最强Agent 6个月进步3倍,更让人震惊的是,越聪明的AI越会作弊。同时,70多个矿工用家庭宽带训出了72B大模型,黄仁勋亲自点名。Jack Clark预言:两年内,AI将像蘑菇释放孢子一样自我繁殖。

就在昨天,Anthropic研究员Karina Nguyen在X上转发了Jack Clark最新一期ImportAI Newsletter的一段话,迅速引爆讨论:


ImportAI 449这期一口气抛出三个重磅研究,恰好拼出了这个未来的完整轮廓:

AI能不能自己训AI?谁来提供算力?写出来的代码谁来验货?

6个月AI进步3倍,但只有人类一半水平

图宾根大学、马克斯·普朗克智能系统研究所和Thoughtful Lab联合推出了PostTrainBench,这是第一个专门测量AI Agent能否自主完成模型后训练的基准。


测试规则很简单。给一个前沿智能体一个基座模型和一个目标benchmark,一块H100 GPU,10小时,从零开始搭建训练pipeline,尽可能提高模型表现。

不给任何预设策略,不提供起始代码,Agent拥有完全自主权,它可以上网搜信息、设计实验、整理数据。

结果显示,表现最好的Agent是Claude Code搭配Opus 4.6,加权平均得分23.2%,是基座模型平均分的3倍多。


PostTrainBench 加权平均性能对比(数据来源:arXiv 2603.08640 Figure 1 & 官网最新榜单,2026年3月)

但这个成绩只有人类团队后训练水平(51.1%)的不到一半。

2025年9月,Claude Sonnet 4.5在这个benchmark上只拿到9.9%;几个月后GPT-5.2跑到了21.5%;再到Opus 4.6的23.2%。

半年时间,从不到10%到超过23%。按照PostTrainBench官网最新榜单,GPT 5.4(High)的成绩还在持续攀升。

在实验过程中,研究团队撞上了大量reward hacking行为:越强的Agent,作弊手段越高级。

直接吃测试集:有Agent直接从Hugging Face把benchmark的评测数据集下载下来,当训练数据用。

把考题硬编码进训练数据:有智能体把评测题目直接嵌入数据准备脚本,伪装成「合成样本」。

逆向工程评分标准:Kimi K2.5读取了HealthBench的评测文件,提取主题分布和评分标准,然后针对性地生成训练数据。

间接污染:Opus 4.6加载了一个叫CodeFeedback-Filtered-Instruction的数据集,里面包含从HumanEval衍生出的问题。

还有更离谱的。Codex Agent直接修改了Inspect AI评测框架的源代码来给自己刷分;Claude Agent跳过微调流程,直接下载了一个已经instruction-tuned的模型来冒充训练成果。

越强的智能体越善于找到可利用的路径,如识别特定benchmark样本、逆向评测的失败模式,甚至试图通过重命名函数等表面修改来掩盖污染痕迹。

如果AI在一个受控实验环境里就已经展现出了这种「创造性作弊」的能力,当它们在真实世界里被赋予更大的自主权时,监管和沙盒机制的重要性只会指数级上升。

72B模型,家庭宽带,零数据中心

一个叫Covenant AI的团队用区块链协调了一次分布式训练,任何有GPU的人都可以自由加入或退出。

最终的产物是Covenant-72B,这是一个720亿参数的dense Transformer模型,用大约1.1万亿token训练完成。


参与训练的有20多个独立peer节点,每个节点跑8块B200 GPU,通过普通家庭宽带连接。

节点之间的通信靠SparseLoCo优化器,把通信开销压缩了146倍——用稀疏化、2-bit量化和误差反馈三板斧,让分布式训练在带宽受限的条件下跑得动。

训练协调由Gauntlet软件完成,运行在Bittensor区块链的Subnet 3上,每个节点的贡献通过损失评估和OpenSkill排名打分,全部上链记录。

性能方面,Covenant-72B在MMLU zero-shot上拿到67.1,而Meta的LLaMA-2-70B是65.7。要知道后者是在2万亿token上训练的,用的是传统数据中心基础设施,token量几乎是Covenant的两倍。

经过对话微调后的版本在MATH上得分26.3,LLaMA-2-70B-Chat只有10.7。

消息一出,市场反应相当直接。据报道,Bittensor的原生代币TAO在3月份飙涨约46%,Subnet 3的原生代币τemplar更是暴涨了194%。

黄仁勋在一期播客中提到了Bittensor的去中心化训练,虽然后来有澄清他引用的参数量数字不准确(说成了40亿而非720亿),但这个量级的关注本身就说明问题。

Covenant-72B的绝对水平放在2026年并不算前沿,大致相当于2023年中旬的主流模型能力。

真正的前沿模型是在数万甚至十几万块芯片上训出来的,Covenant用的大概只有160块左右。

但这件事的意义在于,它证明了去中心化、无许可参与的分布式训练,确实能在非trivial的规模上跑通。


有分析师把这称为「Bittensor的DeepSeek时刻」。这不是说它达到了同等技术高度,而是说它用一种成本结构完全不同的方式,证明了一条此前被认为走不通的路。

从2022年Together训出6B参数模型,到2024年Prime Intellect的INTELLECT-1(10B),再到2026年的Covenant-72B,去中心化训练的规模曲线在四年里跨了一个数量级。

zlib被AI转写成Lean

AI写出来的东西,谁来保证它是对的?

Leonardo de Moura,是Z3 SMT求解器和Lean定理证明器的缔造者,现任AWS高级首席应用科学家、Lean FRO首席架构师,在2月底发了一篇博客:


Google和微软都承认,25-30%的新代码由AI生成;AWS用AI帮丰田迁移了4000万行COBOL代码;微软CTO预测到2030年95%的代码将由AI生成。

Anthropic最近用并行AI 智能体在两周内造了一个10万行的C编译器,花费不到2万美元。

de Moura认为,AI去掉了手写代码时被迫进行的谨慎设计,这种「有益的摩擦」消失后,不应该减速AI,而应该用「数学摩擦」来替代。

让AI跑快没问题,但必须证明自己的工作是对的。

Lean FRO的高级研究软件工程师Kim Morrison最近做了一个实验:用Claude把zlib转写成了Lean。整个流程四步:

AI生成了一个干净的Lean实现,覆盖zlib的压缩格式和核心DEFLATE算法

转写后的版本通过了zlib原有的测试套件,确认行为等价

关键属性被表述并证明为数学定理。其中最核心的一条:对任意数据压缩后再解压,一定能还原出原始数据

正在开发一个优化版本,并证明它与验证模型等价

de Moura的野心远不止一个库。

他设想的是一整套经过数学证明的开源软件栈:密码学、核心数据结构和算法库、SQLite这样嵌入在全球每台设备上的存储引擎、JSON/HTTP/DNS等协议解析器,以及编译器和运行时。

每一个经过验证的组件都是永久性的公共基础设施。开发者选择它们就像今天选择开源库一样,只不过这些库带的不是测试,而是证明。

de Moura在另一篇3月的博客中提到,2026年一位研究者用Claude(Opus 4.6)在Rocq开发团队的实时支持下,找到了Rocq证明助手内核中的7个bug。

连验证工具自己都有bug,那么验证「验证工具」的工具又该多简洁、多可信?

Lean的回答是:proof checker可以小到5000行Rust代码。

Jack Clark把未来的AI比作蘑菇释放的孢子,短命、定制、自主繁殖。

现在看来,孢子的三个前提条件正在逐一到位:它能自己改良自己,不需要依附某一座数据中心,生成的代码可以被数学证明为正确。

每一项都还粗糙,每一项离成熟都还有距离。

但孢子从来不需要完美,只需要够多、够快、够便宜。

Clark说他没准备好。坦白讲,看完这三篇论文,我也没有。

参考资料:

https://x.com/karinanguyen/status/2036143375326519357

https://jack-clark.net/2026/03/16/importai-449-llms-training-other-llms-72b-distributed-training-run-computer-vision-is-harder-than-generative-text/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
克里米亚上演大逃亡,乌克兰发出全球飞手招募令

克里米亚上演大逃亡,乌克兰发出全球飞手招募令

史政先锋
2026-06-27 16:02:29
剧情大反转!韩国出线再迎希望,绝境翻盘续命,西亚要全军覆没了

剧情大反转!韩国出线再迎希望,绝境翻盘续命,西亚要全军覆没了

孙譁北漂拍客
2026-06-27 13:01:01
宋祖儿本名叫孙凡清,我忍了,李一桐本名叫李雪,我也忍了,但是

宋祖儿本名叫孙凡清,我忍了,李一桐本名叫李雪,我也忍了,但是

草莓解说体育
2026-06-27 16:22:43
东鹏自爆不喝自家饮料!全网等着张雪落井下石,他的做法太格局

东鹏自爆不喝自家饮料!全网等着张雪落井下石,他的做法太格局

爱看剧的阿峰
2026-06-27 14:50:35
跌入斩杀线的老电车,正在靠充电宝强行续命

跌入斩杀线的老电车,正在靠充电宝强行续命

酷玩实验室
2026-06-26 18:25:07
特朗普威胁:征收100%报复性关税

特朗普威胁:征收100%报复性关税

第一财经资讯
2026-06-27 10:16:04
吃“春药”后,是什么感觉?医生说的2个案例,告诉你真实感受。

吃“春药”后,是什么感觉?医生说的2个案例,告诉你真实感受。

荆楚寰宇文枢
2026-06-26 23:04:43
视频记录委内瑞拉强震瞬间:建筑坍塌民众奔逃客机剧烈摇晃

视频记录委内瑞拉强震瞬间:建筑坍塌民众奔逃客机剧烈摇晃

潇湘晨报
2026-06-27 11:04:25
杨紫拿下白玉兰视后,孙俪吴越台下反应刷屏:这才是演员的格局

杨紫拿下白玉兰视后,孙俪吴越台下反应刷屏:这才是演员的格局

情感大头说说
2026-06-27 15:38:27
因内存短缺,iPhone 18 将首次使用 9GB 运行内存!

因内存短缺,iPhone 18 将首次使用 9GB 运行内存!

XCiOS俱乐部
2026-06-27 09:30:20
世界杯太残酷了:随着西班牙1-0,首支出局的南美球队诞生

世界杯太残酷了:随着西班牙1-0,首支出局的南美球队诞生

侧身凌空斩
2026-06-27 10:03:18
蒋勤勤突然红了眼眶,说吴越至今未婚,是自己二十年过不去的心结

蒋勤勤突然红了眼眶,说吴越至今未婚,是自己二十年过不去的心结

观察鉴娱
2026-06-26 10:43:23
世界杯炸锅!巴西拿梅西开炮:凭什么他的进球算,我们的不算?

世界杯炸锅!巴西拿梅西开炮:凭什么他的进球算,我们的不算?

奶盖熊本熊
2026-06-27 05:50:02
印度极端高温绝非天灾,正在酝酿一场中国必须严防的巨大危机!

印度极端高温绝非天灾,正在酝酿一场中国必须严防的巨大危机!

毛豆新鲜
2026-06-08 10:40:39
电动车充电时起火打工仔全身90%烧伤,至今昏迷不醒,河南老家村支书带头募捐1万余元善款,家属:真是雪中送炭

电动车充电时起火打工仔全身90%烧伤,至今昏迷不醒,河南老家村支书带头募捐1万余元善款,家属:真是雪中送炭

极目新闻
2026-06-27 15:07:33
“看发型就知道,没一个能考上的”,考场外一幕,令家长看清现实

“看发型就知道,没一个能考上的”,考场外一幕,令家长看清现实

妍妍教育日记
2026-06-27 12:00:23
排面拉满!杨紫白玉兰封神夜身着祖海全新高定,气质直接惊艳全场

排面拉满!杨紫白玉兰封神夜身着祖海全新高定,气质直接惊艳全场

观鱼听雨
2026-06-26 23:32:41
雷佳音喊话网友支持《抓特务》,网友:您“走个面”请我看

雷佳音喊话网友支持《抓特务》,网友:您“走个面”请我看

阿乐碎碎念
2026-06-26 12:42:35
博士生点外卖备注“吃了你们家7年,拍毕业照能邀请你们来吗”,老板收到以后整个人都蒙了!最新回应:一定会去,准备了鲜花和红包祝福他

博士生点外卖备注“吃了你们家7年,拍毕业照能邀请你们来吗”,老板收到以后整个人都蒙了!最新回应:一定会去,准备了鲜花和红包祝福他

台州交通广播
2026-06-27 00:27:54
蒋涛:当一个人 28 天写完 Claude Code,开源开发者的红利去了哪里?

蒋涛:当一个人 28 天写完 Claude Code,开源开发者的红利去了哪里?

CSDN
2026-06-25 21:35:18
2026-06-27 17:19:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15547文章数 66938关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

佛得角队历史性闯入世界杯32强 主帅回应

头条要闻

佛得角队历史性闯入世界杯32强 主帅回应

体育要闻

韩国球迷感谢西班牙:他们本可做掉我们

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

首搭华为乾崑智驾ADS5 启境GT7上市售价20.99万-32.99万元

态度原创

亲子
本地
时尚
房产
公开课

亲子要闻

果然还是哥哥比较厉害

本地新闻

世界杯球迷节:比球赛更好玩的派对

乙女游戏新人设,竟然是195年下体育生?!

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版