网易首页 > 网易号 > 正文 申请入驻

从选题到论文一键生成:最新论文虾把autoresearch往前推了十步

0
分享至

一周前,当 Andrej Karpathy 在 X 平台上发布他的新项目 autoresearch 时,整个 AI 社区被迅速吸引。因为这个项目只用了大约 630 行 Python 代码,就实现了让 AI 自主开展研究的机制。


(来源:Karpathy)

截止目前,上线不到两周,项目的星标数已超过 4 万。有人在自家 H100 GPU 上运行了 83 次实验,保留了 15 次有效改进,验证损失从接近 1,000 稳步下降到 0.975 附近。

autoresearch 的核心在于给 AI 智能体提供一个真实的、简化的 LLM 训练环境,让它彻夜迭代。仓库主要由三个文件构成:prepare.py 固定负责数据准备和 BPE 分词器训练;train.py 是可编辑的核心脚本,包含 GPT 模型、优化器和训练循环;program.md 则作为人类编写的指令手册,指导 AI 的行为。

每次实验严格限定 5 分钟墙钟时间,评估指标用 val_bpb,确保不同改动间公平比较。智能体修改代码、运行训练、检查结果、决定保留或回滚,整个过程在 git 分支上记录,形成完整的演化历史。这延续了 Karpathy 一贯的极简风格,从 micrograd 到 nanoGPT,再到 nanochat,他总是在把复杂系统压缩到最小可运行规模,只是 autoresearch 这一次把主角换成了 AI。

但开发者们没有止步于此。就在 autoresearch 发布后不到两周,一支来自美国北卡罗来纳大学教堂山分校(UNC)AIMING Lab 的华人团队,将这个自主实验循环的概念大幅扩展,开源了 AutoResearchClaw。

这个项目本质上是一个端到端的自主科研 Agent,能从用户输入的一个原始研究想法开始,自动完成从文献检索到论文撰写的完整流程。目前仓库星标已超过 4,500,版本从 v0.1 快速迭代到 v0.3.0(最新于 3 月 17 日发布),并引入了自进化机制。


(来源:GitHub)

与 autoresearch 主要聚焦 LLM 训练代码的超参优化和模型改进不同,AutoResearchClaw 把输入端直接拉到“一个原始研究想法”。用户只需在命令行输入一行 CLI 命令,附上 idea,比如“探索新型注意力机制在长上下文建模中的效率”,系统就会启动一个 23 阶段的端到端流水线,覆盖 8 个主要阶段:从 idea scoping、文献发现、合成,到实验设计、执行、分析、写作和最终定稿。

首先,系统会处理文献部分。它通过 arXiv 和 Semantic Scholar 检索真实论文,然后用 DataCite 和 CrossRef 进行交叉验证。每条引用都要经过四层过滤:arXiv ID 校验、DOI 查找、标题匹配以及 LLM 相关性打分,任何幻觉引用都会被自动剔除。这一步的严谨程度,已经超过了不少人工文献综述。

进入实验阶段后,AI 根据前期文献生成可运行代码。它会自动检测用户硬件(例如是 NVIDIA CUDA、Apple MPS 还是纯 CPU),并适配沙箱环境。代码出错时,系统自我修复,无需人工介入;如果实验结果不支持初始假设,它会主动转向新方向,而不是执着于一条路径。这个过程继承了 autoresearch 的紧反馈循环,但范围大大扩展:不再局限于调参,而是真正设计对比实验、生成图表、记录各项指标。

实验完成后,多智能体评审机制接管,几轮“同行评议”检查方法论与证据的一致性,并输出修订建议。最后,系统生成一篇 5,000 词以上的完整论文草稿,包括引言、相关工作、方法、实验、结论等标准章节。

数学公式用 KaTeX 渲染,对比图表自动绘制,直接套用 ICML、ICLR 或 NeurlPS 的 LaTeX 模板。用户最终拿到的是可直接编译的 .tex 文件、验证过的 BibTeX 引用列表、全部实验脚本、沙箱运行结果以及同行评审笔记。如果选择全程无人值守,只需加上 --auto-approve 参数;如果更谨慎,也可以设置三个审批关卡(对应阶段 5、9、20),逐步人工介入。


(来源:GitHub)

AutoResearchClaw 的团队主要来自 AIMING Lab,核心贡献者包括 Huaxiu Yao 等研究者。他们明确表示,项目站在两个重要基础之上:一是 Karpathy 的 autoresearch,提供了代码自主迭代的微循环;二是 OpenClaw 框架,提供了多 Agent 编排的底层支持。

v0.2 版本引入 MetaClaw 自进化引擎,从失败案例中提取教训,转化为可复用技能,注入后续运行,实测减少 40% 的 refine 周期;v0.3 则进一步强化速率限制防护、多 API 级联搜索(从 OpenAlex 到 Semantic Scholar 再到 arXiv),以及多 Agent 辩论模块。这些更新都在 GitHub 上公开,issue 区非常活跃,用户反馈直接推动下一版迭代。

从实际案例来看,这个项目的工程鲁棒性超出预期。一位早期测试者输入“Unity 资产剪枝优化”作为 idea,系统自动完成文献搜集、代码生成、实验验证,最后输出一篇会议级论文,连图表都完整配齐。

另一个例子中,智能体在实验失败后主动调整假设,避免了 p-hacking 式的偏差。这与早期 AI 论文生成工具的根本区别在于:它不是简单文本拼接,而是将 autoresearch 的“实验自我迭代”真正扩展到科研全链条,从选题到投稿准备,一气呵成。

项目也注重开放性和可审查性。所有输出包括完整实验脚本和结果日志,便于人类复核;引用列表全部可追溯;代码沙箱默认隔离,降低潜在风险。目前还不支持所有边缘硬件,但团队已表示社区 fork 和适配工作正在推进。仓库 README 反复强调,这套工具的目标不是取代研究员,而是把“从灵感和 arXiv 投稿”的周期从几个月压缩到一个晚上。

今天,AutoResearchClaw 仍在快速迭代。最新 release 优化了多 Agent 辩论和 LaTeX 导出,用户反馈显示,配合 Claude Code 这类编码智能体,整体成功率已超过 85%。

1.开发者主页:https://x.com/HuaxiuYaoML/status/2033038170653405308/photo/1

2.项目地址:https://github.com/aiming-lab/AutoResearchClaw

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘慧被查!曾任宁夏自治区主席,是二十大以来落马又一女正部

刘慧被查!曾任宁夏自治区主席,是二十大以来落马又一女正部

南方都市报
2025-07-18 13:43:27
多名院士研究发现:吃一把花生,就等于吃了两勺黄油,真的假的?

多名院士研究发现:吃一把花生,就等于吃了两勺黄油,真的假的?

观星赏月
2026-03-25 09:20:03
原来他俩是夫妻,兜兜转转破镜重圆,如今演《冬去春来》他又火了

原来他俩是夫妻,兜兜转转破镜重圆,如今演《冬去春来》他又火了

洲洲影视娱评
2026-03-26 16:37:01
沙特:若对伊开战将启动巴基斯坦核保护伞

沙特:若对伊开战将启动巴基斯坦核保护伞

Nee看
2026-03-25 19:07:00
男人的生理需求能有多难忍?网友:我对我老公只有动物本能

男人的生理需求能有多难忍?网友:我对我老公只有动物本能

带你感受人间冷暖
2026-02-07 03:58:56
巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

懂球帝
2026-03-26 06:43:02
日媒:政府出手后,日本汽油价已降至7.71元/升

日媒:政府出手后,日本汽油价已降至7.71元/升

随波荡漾的漂流瓶
2026-03-25 15:39:49
伊朗对科威特乌代里基地、沙特苏丹王子空军基地、巴林谢赫伊萨空军基地以及美军一处后勤设施等目标实施打击

伊朗对科威特乌代里基地、沙特苏丹王子空军基地、巴林谢赫伊萨空军基地以及美军一处后勤设施等目标实施打击

潇湘晨报
2026-03-26 16:56:00
公安部172号令落地:70岁驾照不再终身有效,2026年这些事必须办

公安部172号令落地:70岁驾照不再终身有效,2026年这些事必须办

小怪吃美食
2026-03-24 17:29:52
奥恰洛夫:我从圈内听说,樊振东明年甚至有可能再换一次俱乐部

奥恰洛夫:我从圈内听说,樊振东明年甚至有可能再换一次俱乐部

懂球帝
2026-03-26 11:24:21
比熬夜可怕十倍的10个坏习惯,一定要抛弃!

比熬夜可怕十倍的10个坏习惯,一定要抛弃!

深度知局
2026-02-26 21:39:44
美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

军机Talk
2026-03-25 17:17:57
泰国U23国脚:中国队是亚洲顶级球队之一,和他们交手很愉快

泰国U23国脚:中国队是亚洲顶级球队之一,和他们交手很愉快

懂球帝
2026-03-26 12:27:11
俄专家曾预言:中国军力追上俄罗斯需10年,赶超美国还得等25年?

俄专家曾预言:中国军力追上俄罗斯需10年,赶超美国还得等25年?

介知
2026-03-26 09:59:05
泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

TVB的四小花
2026-03-26 12:18:20
痛别!李幼平逝世

痛别!李幼平逝世

极目新闻
2026-03-26 13:31:27
张近东资产清零,张朝阳手握百亿现金:两种人生,一个忠告

张近东资产清零,张朝阳手握百亿现金:两种人生,一个忠告

老特有话说
2026-03-26 14:31:44
不可错过!3月26日晚间18:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月26日晚间18:00比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-26 15:31:17
特朗普心腹说漏嘴,伊朗的麻烦还没解决,美就急着要和中国打一架

特朗普心腹说漏嘴,伊朗的麻烦还没解决,美就急着要和中国打一架

无悔的灿烂人生
2026-03-26 16:01:06
美国务卿:中国正在经历人类最大规模军力建设,美国打不过中国

美国务卿:中国正在经历人类最大规模军力建设,美国打不过中国

阿芒娱乐说
2026-03-26 16:52:32
2026-03-26 18:59:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16491文章数 514797关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
游戏
艺术
亲子
公开课

转头就晕的耳石症,能开车上班吗?

《刺客信条》又一新作野心炸裂!三张地图横跨半个地球

艺术要闻

哪一座桥不是风景?

亲子要闻

上海美华妇儿医院"康复中心"完成全面升级并正式焕新启幕

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版