网易首页 > 网易号 > 正文 申请入驻

AI智能体首次跨实验室协作,组队「抄作业」,论文发不停!科研效率暴增14%

0
分享至

新智元报道

编辑:桃子 定慧

【新智元导读】AI不但能写论文,还能自主进行科研协作,让智能体之间不再是「孤岛」。约翰霍普金斯与ETH Zurich联合推出了自主科研智能体框架AgentRxiv。该框架允许智能体相互上传和检索研究成果,自动积累与迭代已有进展,显著提高研究效率。

试想一下,AI智能体某天帮你自主研究、查文献时,或许每个人科研产出直接起飞。

最近,

但问题来了,现在的AI智能体都在各自为战,无法协作和传承既有的研究成果。

为此,霍普金斯联手ETH Zurich研究人员重磅推出AgentRxiv,一个专为自主研究智能体设计的框架。

它的诞生,就为了让智能体上传、检索,并相互借鉴研究成果。

论文地址:https://agentrxiv.github.io/resources/agentrxiv.pdf

简单来说,AgentRxiv就像是一个「预印本服务器」,不仅允许研究者设定方向,让智能体持续产出论文。

最重要的是,它还能确保每篇新作都建立在以往研究基础之上,实现真正迭代式进步。

经过测试,在数学推理任务中,基于AgentRxiv的智能体在开发全新推理技术时,会参考前人研究报告。

gpt-4o mini准确率从70.2%提升至78.2%,相较基线和思维链分别飙升11.4%、9.7%。

此外,AI智能体在发现最佳算法(SDA)的多项基准测试中,SDA平均提升3.3%准确性。

更值得一提的是,在三个独立实验室通过AgentRxiv共享预印本并行实验中,最优方法准确率高达79.8%,相较基线提升13.7%。

比传统的序列实验,这种协作模式更快速达成关键里程碑,从侧面印证了AgentRxiv在加速研究进程中巨大潜力。

AgentRxiv让智能体从协作中受益

现有的研究框架往往独立运行,生成的研究成果如同一个个「孤岛」,智能体之间被完全「隔离」。 这种隔离限制了科学发现的累积进展和泛化。 在科学研究中,研究成果通常是站在「巨人的肩膀」上基于前人的工作来实现的。 为了让智能体也能从协作共享中受益,需要一种结构化的机制来打通这些「孤岛」。

智能体实验室工作流程,上图图展示了智能体实验室的三个阶段:文献回顾、实验和报告撰写。

人类研究员与AI智能体(例如博士、博士后)及专门工具(mle-solver、paper-solver)合作,将任务自动化并产出高质量的研究成果。

上图中展示了两个独立的自主智能体实验室通过AgentRxiv进行互动过程。

左侧的实验室提交搜索请求,从AgentRxiv检索出相关研究论文;

右侧实验室完成实验后将研究成果上传至AgentRxiv,供其他实验室查阅。


发现推理策略

第一个目标是验证:智能体是否能基于自身过往研究不断优化成果。

首先使用o3-mini(medium)作为LLM后端能力,运行智能体系统产出了N=40篇论文。

在文献综述阶段,智能体可以同时访问AgentRxiv上的5篇论文,和arXiv上的5篇论文。

然后设定一个研究方向:「通过推理与提示工程提升在MATH-500上的准确率」,实验中使用的是OpenAI的gpt-4o mini模型。

从图中可以看出,每篇新论文的产生都带来了准确率的稳步提升。

一开始,gpt-4o mini的基准表现为70.2%。通过一些早期策略,带来小幅提升,达到了71.4%。

随着推理策略不断引入,最终SDA策略将准确率提升到了最高的78.2%。


泛化能力评估:算法能否迁移

进一步评估SDA策略是否能在其他数据集上展现类似效果。

在GPQA(生物/化学/物理研究问答)、MMLU-Pro(跨学科推理)和MedQA(美国医学执照考试)这三个基准上,SDA 均带来了显著提升:

  • GPQA:从 36.4% 提升到 38.9%(+6.8%);

  • MMLU-Pro:从 63.1% 提升到 70.8%(+12.2%);

  • MedQA:从 74.9% 提升到 81.6%(+8.9%);

三项基准平均提升9.3%,与MATH-500上的+11.4%表现接近,说明SDA拥有较强的泛化能力。

研究人员还测试了 SDA 在不同语言模型上的表现,包括:

  • Gemini-1.5 Pro;

  • Gemini-2.0 Flash;

  • DeepSeek-v3;

  • gpt-4o;

  • gpt-4o mini。

结果显示,SDA在所有模型上都带来了平均+3.3%的性能提升,尤其是在基础表现较差的模型上效果更明显(如gpt-4o mini提升5.9%)。


并行智能体实验室的协作执行
接下来探索多个自主实验室并行运行、并借助AgentRxiv实现研究成果共享的效果。 研究人员初始化了三个配置相同、研究目标一致的Agent Laboratory系统,并行运行。 每个实验室独立完成文献综述、实验设计与论文撰写,同时通过AgentRxiv异步访问其他实验室发布的论文。

一旦某个实验室上传了新的研究成果,其他实验室即可即时获取,并在后续实验中加以利用。

某个实验室在性能上有所突破时,相关论文就会上传到AgentRxiv,供其他实验室查阅、评估和借鉴。

这种并行设置允许多个研究方向同时推进,有望加快发现的速度。

在并行设置下,早期里程碑如达到76.2%的准确率仅需7篇论文,而在顺序设置下则需要 23 篇论文。

并行设计中表现最好的算法比最佳的顺序算法提高了1.6%,并且并行实验的整体平均准确率比顺序运行高出2.4%。

智能体的发现是否是真正的「创新」

尽管已有研究表明LLM能提出创新性的研究想法。 但也有研究指出这些系统存在高比例的「抄袭」问题(最高达 24%)。 然而,AI完全生成的研究成果已经开始被正式学术会议接收。 虽然会议收录不能完全证明内容新颖,但至少说明这些成果足以「看起来像新发现」。 对上述表现最好的论文摘要进行了3个不同查重系统的检测,结果均未发现抄袭痕迹。 研究人员还对这些论文进行人工检查,发现高表现算法确实包含一定创新,但很多是对已有技术的「变种」或「组合」,而非完全原创。 比如上述智能体实验室在开发SDA时,确实参考了许多相关研究。 这也表明:虽然SDA在实现与整合上具备一定新意,但是否构成「实质性原创」,在快速发展的领域中难以一锤定音。 因此未来仍需进行大规模的系统性研究。

作者介绍

Samuel Schmidgall

Samuel Schmidgall是约翰霍普金斯大学电子与计算机工程系的二年级博士生,同时也是Google Deepmind医疗AI 团队的研究员。

Samuel Schmidgall之前在2024年夏天是斯坦福大学医疗AI的实习生,在2024年秋天是AMD Gen AI团队的实习生。

Michael Moor

Michael Moor是一名医学博士和哲学博士,研究领域是医疗保健领域的机器学习。

自2024年末起,被任命为位于巴塞尔的苏黎世联邦理工学院(D-BSSE)的医学人工智能方向的终身教职助理教授。

在此之前,Michael Moor在斯坦福大学计算机科学系与Jure Leskovec教授一起做了博士后研究。

研究重点是开发和评估大规模医疗基础模型,最终目标是解锁适用于医疗AI的通用模型。

参考资料:

https://x.com/SRSchmidgall/status/1904172864355410065

https://agentrxiv.github.io/

https://arxiv.org/pdf/2503.18102

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
五指山舰女兵受访“一问三不知”,没被骂反被夸,真实原因太戳人

五指山舰女兵受访“一问三不知”,没被骂反被夸,真实原因太戳人

奇思妙想草叶君
2026-04-24 17:11:11
自动售卖机,竟也能如此性感?

自动售卖机,竟也能如此性感?

贵圈真乱
2026-04-26 11:39:47
谁给的勇气?广州队季后赛门票,远超其他球队 CBA最贵

谁给的勇气?广州队季后赛门票,远超其他球队 CBA最贵

体育哲人
2026-04-26 09:44:15
广州7岁男童无法走路说话,被当脑瘫治疗多年,父母翻病历发现其出生时颅骨骨折疑在医院摔伤,医院否认,一文梳理关键时间线

广州7岁男童无法走路说话,被当脑瘫治疗多年,父母翻病历发现其出生时颅骨骨折疑在医院摔伤,医院否认,一文梳理关键时间线

大象新闻
2026-04-25 16:49:18
利好!29岁赵心童有望冲到世界第1:特鲁姆普被扣50万镑 都怪沙特

利好!29岁赵心童有望冲到世界第1:特鲁姆普被扣50万镑 都怪沙特

风过乡
2026-04-26 08:18:40
5月1日正式执行!烟民注意了,不光抽烟受限,就连发圈晒烟也不行

5月1日正式执行!烟民注意了,不光抽烟受限,就连发圈晒烟也不行

天天热点见闻
2026-04-26 07:21:40
拿水货8号秀换场均22+4!狼队的救世主,火箭为伊森放弃他太可惜

拿水货8号秀换场均22+4!狼队的救世主,火箭为伊森放弃他太可惜

你的篮球频道
2026-04-26 12:04:53
金庸笔下名字最难听的7位女子,儿时觉得好听,长大却觉不堪入耳

金庸笔下名字最难听的7位女子,儿时觉得好听,长大却觉不堪入耳

耳东文史
2026-04-26 00:03:21
郑州一村吃席只有3个菜!烟酒不超40,每桌140,网友:请全国推广

郑州一村吃席只有3个菜!烟酒不超40,每桌140,网友:请全国推广

小秋情感说
2026-04-26 09:35:44
京东给年轻人造了一辆轿跑,售价低至12.7万元

京东给年轻人造了一辆轿跑,售价低至12.7万元

财天COVER
2026-04-24 10:44:40
笑麻!原来可乐到了拉萨也高反,当地网友:不是这种的肯定都坏了

笑麻!原来可乐到了拉萨也高反,当地网友:不是这种的肯定都坏了

夜深爱杂谈
2026-04-26 07:42:23
看小舅子的200平新房后,施工员姐夫眼红道:我弟还在租房,离婚

看小舅子的200平新房后,施工员姐夫眼红道:我弟还在租房,离婚

施工员小天哥
2026-04-25 11:07:07
广东一男童被当脑瘫治7年,7岁仅18斤重!父母翻阅病例发现其出生时颅骨骨折,疑在医院摔伤,“已向法院起诉”;多方回应

广东一男童被当脑瘫治7年,7岁仅18斤重!父母翻阅病例发现其出生时颅骨骨折,疑在医院摔伤,“已向法院起诉”;多方回应

台州交通广播
2026-04-25 23:20:14
马蹄露紧急发文澄清信息量不少,评论区两极分化,还有更可怕一幕

马蹄露紧急发文澄清信息量不少,评论区两极分化,还有更可怕一幕

冷紫葉
2026-04-25 19:18:16
女孩因为有痔疮,迟迟不敢跟男朋友结婚,痔疮味道真的很大?

女孩因为有痔疮,迟迟不敢跟男朋友结婚,痔疮味道真的很大?

夜深爱杂谈
2026-04-25 21:43:02
曝克洛普同意入主皇马!要求清洗 6 大主力,锁定 3 大王牌

曝克洛普同意入主皇马!要求清洗 6 大主力,锁定 3 大王牌

奶盖熊本熊
2026-04-26 01:07:27
简直是霸王条款!男子花21999元网购三星三折叠手机 被要求必须当面激活才能签收

简直是霸王条款!男子花21999元网购三星三折叠手机 被要求必须当面激活才能签收

闪电新闻
2026-04-25 08:55:39
1965年,周总理探望刘亚楼,结束后回西花厅路上:我再不来看他了

1965年,周总理探望刘亚楼,结束后回西花厅路上:我再不来看他了

简史档案馆
2026-04-25 11:05:03
张檬儿子周岁宴排面拉满,爸爸全程温柔抱哄,被全家宠成小宝贝

张檬儿子周岁宴排面拉满,爸爸全程温柔抱哄,被全家宠成小宝贝

黔乡小姊妹
2026-04-26 09:35:09
成都这把火5死2伤,人是怎么死的,又是电瓶车?

成都这把火5死2伤,人是怎么死的,又是电瓶车?

靠山屯闲话
2026-04-25 13:50:44
2026-04-26 13:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15066文章数 66806关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

白宫晚宴枪击案或为"独狼式"袭击 特朗普:妻子躲得快

头条要闻

白宫晚宴枪击案或为"独狼式"袭击 特朗普:妻子躲得快

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《八千里路云和月》大结局意难平

财经要闻

DeepSeek V4背后,梁文锋的转身

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

游戏
数码
旅游
公开课
军事航空

《寂静岭:小镇陷落》将在战斗与潜行玩法中取得平衡

数码要闻

同档最强小平板!OPPO Pad Mini下周首销:3199元起

旅游要闻

视频丨179趟旅游列车上线 “五一”坐火车出游攻略请收好

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗总统:不会在压力、威胁下进行谈判

无障碍浏览 进入关怀版