网易首页 > 网易号 > 正文 申请入驻

卡帕西开源Agent自进化训练框架,5分钟一轮实验,48h内揽星9.5k

0
分享至

闻乐 克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

大神Karpathy又开源了新项目——一个能够自主进化的AI科研循环系统

这个项目名叫autoresearch,主打让智能体完全自主地搞科研,只要在Markdown文档里写好指令,剩下的流程全都由AI自动完成。

而且整个框架十分精简,一共只有630行代码,单个GPU就能跑得动



它每5分钟就会跑一轮测试,并根据验证结果决定是保留还是丢弃改动,就像一个24小时从不休息且能自我进化的虚拟研究员。

Karpathy还希望,未来能让成千上万个智能体在海量分支里异步协作,不再受限于单一的master分支,从而通过群体智慧实现科研效率的爆发。

发布才不到两天,autoresearch斩获的星标数就已经超过了9.5k。



在X上,Karpathy的帖子也有580多万次围观。



Shopify CEO看了Karpathy的项目之后表示膜拜,直言这个项目实在是太疯狂了。



5分钟自动化实验

autoresearch这个项目的思路非常简单,就是把AI训练的循环试错自动化。

AI自己修改代码、跑5分钟的短实验、看效果好不好再决定下一步怎么走。

基于nanochat模型训练核心,定了两条铁律:

一是每次实验的纯训练时间固定为5分钟,避免因为不同改动下的训练时长不同而影响结果;

二是只看val_bpb,这个指标的数值越低,就代表模型效果越好,而且它和模型的大小无关。

这样就把训练逻辑浓缩成了单GPU就能跑的版本,代码也就630行。

一眼看过去,整个代码库就靠三个核心文件——

设置好后全程不用动的prepare.py;需要AI自己改的train.py;只有人类能改的program.md。



prepare.py用于定义训练的固定常量,比如模型基础维度、下载模型训练需要的原始数据、训练适配的分词器等,同时还提供实验过程中需要的工具。



train.py是AI唯一可以编辑、修改的文件,相当于AI的实验笔记本。

这里面装着模型训练的所有核心内容,有完整的GPT架构、训练用的优化器以及整个训练循环逻辑。

AI能在这个文件里改的内容包括模型的层数、训练的批次大小、学习率、权重衰减等等。

所有和训练相关的调整,都集中在这个文件里,既然AI的修改范围可控,也方便人类后续回看到底改了哪里。



program.md是一个纯文本文件,由人类编写修改,里面是给AI的基线指令,比如研究方向、实验规则、参考依据等。

AI启动实验之前,会先读取这个文件的指令,再开始修改train.py跑实验。

如果想换研究方向,也不用去碰复杂的训练代码,只需要更新这个文件里的指令就行。



搞懂了核心原理和3个文件,就很容易理解autoresearch的工作流程了。

整个过程就是AI按照人类的指令,在5分钟实验规则下,反复完成修改、训练、评估、决策。

人类在program.md里写好实验指令,然后启动框架,AI会首先读取这些指令,在train.py里做针对性的修改,通常每次只改1到2个地方。

修改完成后,AI会自动启动训练程序,严格遵守框架设定的规则,纯训练时间固定为5分钟,时间一到,训练结束,框架会自动用val_bpb指标给这次的模型打分。

根据打分结果作出决策,如果这次的val_bpb分数更低,说明模型进步了,AI就会保留这次对train.py的修改,把这个版本作为下一次实验的基础;

如果数值变高了,说明这次的修改是无效的,甚至起了反作用,AI就会果断放弃这次的改动,回到上一个表现最好的版本,重新思考改动方向。

完成这一轮判断后,它会立刻开始下一次实验。

按照5分钟一次计算,AI一小时能完成10来组实验,这个效率是人类手搓达不到的。



上图展示了一次近250轮的自主探索,AI最终筛选并保留了29次有效的优化改进。

图中灰色点代表被AI判定为无效而舍弃的实验结果,虽然没有带来提升,但也提供了避坑经验。

下一步:模拟整个博士社群

把autoresearch公开出来之后,卡帕西还在X上畅享了下一步的发展方向。

他借用UC伯克利在1999年发起的SETI@home项目表示,autoresearch未来的目标不仅是模拟一个博士生的科研过程,还要模拟整个博士生研究社群

SETI@home全称为“Search for Extraterrestrial Intelligence at Home”,核心目标是通过分析射电望远镜收集到的海量无线电信号,寻找可能存在的地外文明迹象。

由于分析这些数据需要极其庞大的计算量,远超当时科研机构所能负担的计算机成本,项目组由此开创了分布式计算的新模式。

在这个模式下,全球各地的志愿者只需在自己的电脑上安装一个特定的屏保程序,系统就会在计算机闲置时利用其剩余的CPU算力来处理从阿雷西博天文台传回的数据片段。



Karpathy之所以拿它作比喻,正是看中了这种“大规模、分布式、异步”的特质,这种去中心化的智慧集成正是未来AI社区的雏形。

他认为,现在的研究Agent依然局限在单一的、同步发展的线性思路之中,但这种模式极大限制了AI的潜力。

在他的理想当中,autoresearch的发展路径应该是让原始代码仓库像种子一样,向各个不同的研究方向和计算平台伸展出无数分支,形成像SETI@home一样的分布式、群体式的探索态势。

Karpathy进一步指出,这种局限性在很大程度上源于我们对Git和GitHub的使用惯性。

具体而言,现有的版本管理系统几乎都建立在一个默认假设之上,即必须存在一个绝对权威的master分支,而所有的branch和PR都只是暂时的偏离,最终其宿命都是要merge回主干。

这种设计逻辑在管理软件代码时固然高效,但在面对需要海量、非线性探索的自动化研究时,却成了一种制度性的束缚。

因为它强行要求所有多样化的研究路径最终必须归于一个唯一的标准答案。



为了验证打破这种僵局的可能路径,Karpathy进行了一些实验性的探索。

他尝试让智能体在完成通宵运行后,将研究总结发布在GitHub的Discussion板块,或者通过PR提交精确的commits变动。

他在实验中意识到,这些PR可能永远不需要被正式merge,但它们作为独立的研究分支有效地积累了下来。

在这一流程中,智能体还会利用GitHubCLI读取已有的讨论和记录来获取灵感,再将新的发现反馈回社区。

总之,比起强行维护一个完美的master分支,让智能体在无数个branch中自由探索、互相启发并沉淀结果,可能才是更符合AI特性的科研姿态。

这本质上是在探索一种更适合AI高频产出的协作方式,让科研过程从传统的“写软件”逻辑,转向更灵活的“攒经验”逻辑。

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海男篮砸钱悬赏!外援听秒变脸,光靠“钞能力”真能换冠军?

上海男篮砸钱悬赏!外援听秒变脸,光靠“钞能力”真能换冠军?

林子说事
2026-05-11 01:50:19
夺冠!国乒3-0日本伦敦登顶,梁靖崑击溃张本,王楚钦定海神针

夺冠!国乒3-0日本伦敦登顶,梁靖崑击溃张本,王楚钦定海神针

骑马寺的少年
2026-05-11 01:32:12
比克洛普还猛!利物浦换帅实锤?英超名帅主动求加盟

比克洛普还猛!利物浦换帅实锤?英超名帅主动求加盟

一隅非生
2026-05-11 03:47:33
新加坡争议网红硬闯动漫展,被cos小哥当场暴打

新加坡争议网红硬闯动漫展,被cos小哥当场暴打

新加坡眼
2026-05-10 17:43:34
1986年的运10下马案,位列中国30年重大间谍案首位,真相令人扼腕

1986年的运10下马案,位列中国30年重大间谍案首位,真相令人扼腕

干史人
2026-01-12 22:07:50
悲催!一超万平小区因物业费收缴率仅65%,物业公司撂挑子退场

悲催!一超万平小区因物业费收缴率仅65%,物业公司撂挑子退场

火山詩话
2026-05-10 15:27:55
颜宁不懂为何网友质疑她吗?其实她心里很清楚,只是不愿接受

颜宁不懂为何网友质疑她吗?其实她心里很清楚,只是不愿接受

明眼人谈教育
2026-05-10 08:30:03
人大代表建议机关事业单位双休制调整为“大周休3天,小周休2天”

人大代表建议机关事业单位双休制调整为“大周休3天,小周休2天”

细说职场
2026-05-10 10:34:41
“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

果壳
2026-05-09 12:33:57
G2山西81-86不敌广厦 球员评价:2人良好,3人及格,5人低迷

G2山西81-86不敌广厦 球员评价:2人良好,3人及格,5人低迷

篮球资讯达人
2026-05-11 03:03:10
嫁进百亿豪门,上海名媛乔欣近况曝光,出国旅游很自在32岁不生娃

嫁进百亿豪门,上海名媛乔欣近况曝光,出国旅游很自在32岁不生娃

蒂蒂茱家
2026-05-10 13:30:55
你坐火车有过哪些奇葩经历?网友:怪自己那时候太单纯!

你坐火车有过哪些奇葩经历?网友:怪自己那时候太单纯!

夜深爱杂谈
2025-12-21 17:37:52
国务卿鲁比奥被中国拒之门外,北京宁绕弯传话也不给他开门!

国务卿鲁比奥被中国拒之门外,北京宁绕弯传话也不给他开门!

故事终将光明磊落
2026-05-10 15:02:43
普京动作太快了:没等中国出手,就派绍伊古去切断了日本的后路

普京动作太快了:没等中国出手,就派绍伊古去切断了日本的后路

甜到你心坎
2026-05-09 14:57:05
中央明确!6月1日全国开始统一执行,居民自来水将迎7大变化

中央明确!6月1日全国开始统一执行,居民自来水将迎7大变化

美食格物
2026-05-10 15:13:10
泪崩!刘国梁卸任后吐真言:亲手毁掉天才?我脑子没病!

泪崩!刘国梁卸任后吐真言:亲手毁掉天才?我脑子没病!

子芫伴你成长
2026-03-17 22:25:40
突然发现一个残忍真相:极度自律,每天锻炼的人,不一定能长寿,但是,极度自私,不为任何人、任何事操心的人很可能长寿

突然发现一个残忍真相:极度自律,每天锻炼的人,不一定能长寿,但是,极度自私,不为任何人、任何事操心的人很可能长寿

LULU生活家
2026-05-02 08:35:04
真心感慨倪妮的长相太神奇了!
单看五官真没一个是完美标配

真心感慨倪妮的长相太神奇了! 单看五官真没一个是完美标配

小光侃娱乐
2026-05-04 19:30:04
《水浒传》骗了世人几百年:宋江战胜方腊?他连给人家提鞋都不配

《水浒传》骗了世人几百年:宋江战胜方腊?他连给人家提鞋都不配

长风文史
2026-05-09 17:57:13
在西方媒体的宣传下,中国简直就是世界上最恐怖的国家!​

在西方媒体的宣传下,中国简直就是世界上最恐怖的国家!​

梦史
2026-04-07 21:13:07
2026-05-11 04:51:00
量子位 incentive-icons
量子位
追踪人工智能动态
12599文章数 176461关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

特朗普看完伊朗回应发帖:不喜欢 完全不可接受

头条要闻

特朗普看完伊朗回应发帖:不喜欢 完全不可接受

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

手机
家居
数码
旅游
公开课

手机要闻

OPPO Reno16系列参数全曝光,就差价格了

家居要闻

菁英人居 全能豪宅

数码要闻

你昂贵的DDR5内存可能是假货:穿着三星的马甲 心里却是SK海力士

旅游要闻

北京“二绿地区”郊野公园焕新升级

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版