网易首页 > 网易号 > 正文 申请入驻

DeepSeek研究员让AI自己研究自己!AI执笔99%,6天搞定45页论文

0
分享至


智东西
作者 程茜
编辑 李水青

DeepSeek和GPT合体写论文了!

智东西5月27日报道,昨晚,DeepSeek资深研究员陈德里(Deli Chen)放出一篇他和Agent合写的45页论文,其中99%内容都是CodeAgent所写

论文题目是《从Copilots到同事:自主科研智能体综述(From Copilots to Colleagues:A Survey of Autonomous Research Agents)》,作者是陈德里、DeepSeek-V4-Pro、GPT-Image2。


陈德里还特意发了免责声明:这篇论文绝非严谨学术论文、不代表任何公司或组织观点,只是出于兴趣以及顺便测试下他搭建的DeliAutoResearch。


他透露,论文共迭代6次,耗时6天搞定,而初稿仅用了76分钟。期间智能体累计运行约108轮、消耗Token约64.8万、LaTeX代码共2234行,最终成品45页,其中包含7个图标、4个表格,文件大小538KB。陈德里也不禁感叹,同样的工作以前至少需要一个月才能完成,而这次他本人的“CPU运转时长”不到2小时

陈德里是DeepSeek-V1、V2、V3、V4、DeepSeek-R1、DeepSeek-Coder、DeepSeek-MoE架构的核心贡献者,他曾获得北京大学信息管理学士学位及计算机科学硕士学位,曾在腾讯担任微信AI研究员。


这篇论文梳理了机器学习、软件工程、科学发现三大领域共计105篇相关文献,陈德里称已经对这些文献进行了验证。其核心目的是为能够自主开展研究的AI智能体提供统一的分析框架,主要有四项研究成果:

1、提出一套五级自主能力分级体系(L1–L5),层级从代码自动补全延伸至完全自主制定研究规划,为各类系统的界定与对比提供规范的术语标准。

2、剖析了四大主流架构模式:单智能体循环、多智能体协作、分层调度编排、工具增强执行;同时搭建对比分析框架,评估各类架构在可扩展性、成本、稳定性及人工监管方面的优劣取舍。

3、基于六维特征矩阵,对17款主流系统展开分析。研究结果表明,当前前沿系统普遍处于L4级别(限定领域内可完成多步骤自主执行),而L5级别仍停留在目标构想阶段

4、梳理出六大核心待解难题:认知死循环、上下文窗口限制、创新价值评估、结果可复现性、安全风险与使用成本,并针对每项难题给出具体研究方向。

其研究分析发现,实现L5级自主能力的核心瓶颈并非模型基础性能,而是在于长效知识沉淀、可靠的自我评估能力,以及具备理论支撑的智能体架构规模化方案三大难点。

不少开发者纷纷在陈德里的评论区下面求开源。


论文:https://victorchen96.github.io/auto_research_survey.pdf

一、当前系统多为能独立产出论文的L4级,已有系统展现出L5级特征

论文将自主研究智能体定义为:一类软件系统,在接收到高层级研究目标后,能够独立执行科学探究的迭代闭环,包括假设生成、实验设计、执行、分析与迭代优化,且在执行流程中仅需极少、甚至完全无需人工干预。

自主研究智能体的五级自主能力分级体系(L1–L5),是基于两个维度:

一是智能体可对什么内容独立做出决策,二是智能体在无需人工审核介入的情况下,可持续自主运行多久。


L1的典型代表是GitHub Copilot等代码补全工具,这一层级中智能体可运行单个token或单行文本,核心能力是对人类撰写文本后续内容的预测,且人类完全主导内容的方向、结构与正确性。

论文中提到,从CodeX演化而来的代码补全模型,在受控编码任务中可实现30%-55%的效率提升,但无法独立完成多步骤目标。

L2的代表是带插件的ChatGPT、支持工具调用的Claude等对话式AI助手,智能体能够将定义清晰的任务拆解为多个步骤并执行,但每一步都需要人工的显式或隐式审批。

其能力包括网页搜索、代码执行、信息整合,全程需要人类引导对话、验证中间结果。

L3是代码智能体,这之中,智能体可自主执行10-100个连续动作,仅在预设的检查点、或遇到不确定情况时,才请求人工审核。其能自主查看代码仓库、编辑文件,无需人类逐步骤审批。

L3与L2级的核心区别在于:智能体可自主做出决策,例如选择编辑哪个文件、如何修复测试失败,无需逐步骤获得人工批准;人类仅保留监督权。

L4的代表是AI Scientist系统、Devin、SWE-Agent等,可自主生成研究思路、撰写论文、运行实验、产出完整论文,甚至完成自动化同行评审,全流程无人工干预。

这一层级的智能体接收到研究目标后,可独立运行数小时至数天,包括自主从故障中恢复、迭代优化策略、最终产出完整的研究成果。人类仅需评估最终输出结果,无需全程监督执行过程。

L5是自主能力的最高等级,智能体不仅能执行研究任务,还能自主选择研究问题、在多个项目间分配资源、基于过往成果持续迭代。

其研究显示目前尚无系统达到这一层级,可自主生成难度递增任务学习课程的智能体Voyager,可基于过往成功程序迭代发现新数学构造的智能体FunSearch已经展现出了L5的部分特征。


二、四大主流架构可适配不同层级系统

论文归纳了四大主流架构模式:单智能体循环(ReAct/Reflexion)、多智能体协作(MetaGPT/AutoGen)、分层编排(Supervisor-Worker)、工具增强执行(CodeAct)。


单智能体循环(ReAct/Reflexion):这是自主智能体中最简单、应用最广泛的基础架构,由单个语言模型迭代执行“观察环境→推理下一步动作→执行动作→吸收反馈”的闭环流程,是绝大多数L3-L4级系统的核心架构。

尽管架构设计简单,但它是绝大多数L3-L4级系统的核心骨架,且在推理策略上存在大量可优化、可变化的空间,适配性极强。

多智能体协作(MetaGPT/AutoGen):多智能体系统可以将任务责任拆分给多个专业化智能体,通过智能体间的通信与协作完成目标。

分层编排(Supervisor-Worker):随着任务复杂度不断提升,扁平化的多智能体通信模式会逐渐失效,分层编排引入了明确的监督管控关系:由一个高层监督者智能体负责拆解任务,将子任务分配给专业化的执行者智能体,同时监控任务进度,并在必要时介入调整。

最后是工具增强执行(CodeAct):这是自主研究智能体的核心标志性特征,是其与外部工具、外部环境交互的能力。工具增强执行将语言模型从被动的文本生成器,转变为计算与物理工作流中的参与者,再加上其可以外接代码、实验、网页,能力上限最高。


总的来看,L2级系统用简单的单智能体循环即可高效运行,L3级系统采用Reflexion,可天然嵌入检查点机制,收益最大,L4级系统通常需要分层编排架构,搭配自主迭代优化,才能在长时间自主运行中维持输出质量,理论上的L5级系统大概率需要具备自重组能力的图结构架构才能实现。

三、三大结论:开闭源差距收窄,专用智能体超越通用,代码智能体最成熟

基于六维特征矩阵,论文对17款主流系统展开分析,六维特征包括前文提到的L1-L5自主等级、核心应用领域、架构模式、工具集成广度、评测方法论、开源属性。


其得到三大结论:

首先更聚焦某一领域的系统,能力上限更高,其中,代码智能体在所有维度中表现最优,受益于自动化评测体系、成熟的工具环境、大规模基准测试的支撑,是当前行业最成熟的赛道。

其次领域专用智能体全面超越通用智能体,SWE-Agent、Coscientist、FunSearch等L4级系统均通过收缩应用范围实现了稳定输出,AutoGPT、BabyAGI等通用智能体,始终无法在多样化任务中实现稳定的L4级运行。

最后,开源与闭源的差距正在收窄,开源系统OpenHands的性能表现已经非常接近Devin等闭源系统。

在评测体系方面,论文提到了需要聚焦三大核心方向:

多维度指标:联合评估创新性、正确性、效率、安全性,而非单一维度的优化;长周期评测:追踪智能体在长期科研项目中的表现,而非孤立的单次任务;社群化评估:将专家反馈循环嵌入评测流程,建立行业共识的评估标准。

论文最后还给出了智能体系统六大核心待解难题:认知死循环、上下文窗口限制、创新价值评估、结果可复现性、安全风险与使用成本。


其中认知死循环、原创性评测、安全问题最为关键,因此认知循环问题使得智能体仍无法识别自身陷入困境,只会在失败策略上持续坚持,而非寻找全新方法;再加上其没有可靠的自动化指标,能衡量科研成果的质量与原创性,导致智能体无法在闭环中实现自我改进;最后随着智能体能力提升,其安全边界与伦理风险愈发突出。

结语:双AI协作产出完整论文,智能体真变身科研同事了

陈德里此次的实验,让智能体实现了从想法到完整论文的自主产出,其仅投入2小时人类思考时间,通过双AI协作就产出了AI科研综述论文,证明了AI从工具进化为“科研同事”的可行性。

AI此次面对长周期、长流程的复杂工作,最后生成的论文逻辑清晰且没有跑偏,展现出了超长文本处理、长流程持续执行、全程逻辑统一的核心能力。

在科研智能体领域,陈德里不仅用有趣的实验展现出了科研智能体的能力,还通过完整的论文分析解读展现出当下这一领域发展的现状及痛点,可以说是双管齐下,或为后续智能体的研究提供了新颖的参考方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河南夫妻支援湖北被刁难,割四亩赔五百,当地人爆料,不止一次

河南夫妻支援湖北被刁难,割四亩赔五百,当地人爆料,不止一次

青橘罐头
2026-05-27 07:41:41
住建部正式通知:6月1日起强制执业!这本证书迎来重大利好

住建部正式通知:6月1日起强制执业!这本证书迎来重大利好

新浪财经
2026-05-25 03:43:00
6.4万 中国市场最贵辅助驾驶系统!特斯拉FSD已在国内灰度推送约5000台车

6.4万 中国市场最贵辅助驾驶系统!特斯拉FSD已在国内灰度推送约5000台车

快科技
2026-05-26 18:13:08
突发,002760,终止重大资产重组!脑机接口商业化进程加速,5股获机构密集评级

突发,002760,终止重大资产重组!脑机接口商业化进程加速,5股获机构密集评级

数据宝
2026-05-27 07:50:32
14亿人的“高压锅”终于炸了:印度如何用一条黑产,冲垮整个发达国家?

14亿人的“高压锅”终于炸了:印度如何用一条黑产,冲垮整个发达国家?

美食格物
2026-05-26 11:35:19
《主角》结局:易青娥苦尽甘来,花彩香放下执念,米兰结局最意外

《主角》结局:易青娥苦尽甘来,花彩香放下执念,米兰结局最意外

星星没有你亮
2026-05-27 04:47:08
400万投资血本无归!浙江老板怒砸门店,背后内情疑似惨遭做局

400万投资血本无归!浙江老板怒砸门店,背后内情疑似惨遭做局

行者聊官
2026-05-27 08:27:43
明年燃油车大升级!油耗大幅下降 每公里低至2毛多,别盲目选电车

明年燃油车大升级!油耗大幅下降 每公里低至2毛多,别盲目选电车

西莫的艺术宫殿
2026-05-25 17:30:05
以军鸣金收兵?伊朗递交无核保证后,内塔尼亚胡改口:不会再找事

以军鸣金收兵?伊朗递交无核保证后,内塔尼亚胡改口:不会再找事

凡知
2026-05-27 13:10:45
最新:乌克兰反攻顿巴斯战略要地!俄军记者忧心忡忡

最新:乌克兰反攻顿巴斯战略要地!俄军记者忧心忡忡

项鹏飞
2026-05-26 17:53:43
武契奇:没学中文是最大遗憾,小儿子正在学

武契奇:没学中文是最大遗憾,小儿子正在学

极目新闻
2026-05-26 13:06:23
板桥水库溃坝:24万人一夜消逝,尘封28年,真相远比天灾残酷

板桥水库溃坝:24万人一夜消逝,尘封28年,真相远比天灾残酷

小玡说故事
2026-05-15 20:07:35
黄仁勋发声:这种做法相当不负责任,我非常反感

黄仁勋发声:这种做法相当不负责任,我非常反感

每日经济新闻
2026-05-26 19:45:26
2026世界杯F组总览:真正的死亡之组,四强各有底牌

2026世界杯F组总览:真正的死亡之组,四强各有底牌

体育世界
2026-05-25 16:46:45
马云斥资沙漠种树十年,承诺每年1亿棵树现状如何

马云斥资沙漠种树十年,承诺每年1亿棵树现状如何

真的好爱你
2026-05-25 23:52:43
朝鲜战争结束后,74名人民军战俘选择前往中立国,之后结局如何?

朝鲜战争结束后,74名人民军战俘选择前往中立国,之后结局如何?

浩渺青史
2026-05-27 01:34:10
被封千万网红大蓝卷土重来:拉人头项目号称月入300万,数百人入局金额超千万

被封千万网红大蓝卷土重来:拉人头项目号称月入300万,数百人入局金额超千万

蓝鲸新闻
2026-05-26 17:32:48
83年飞行员王学成叛逃台湾,邓丽君慰问时耳语一句后被强行支走

83年飞行员王学成叛逃台湾,邓丽君慰问时耳语一句后被强行支走

鉴史录
2026-05-24 15:48:49
女大学生宿舍试穿抹胸裙走红,曼妙身材圈粉无数,露脸后却遭恶评

女大学生宿舍试穿抹胸裙走红,曼妙身材圈粉无数,露脸后却遭恶评

捣蛋窝
2026-05-21 06:40:07
皇马今夏想大换血?根本卖不掉!球员:打死也不走!

皇马今夏想大换血?根本卖不掉!球员:打死也不走!

仰卧撑FTUer
2026-05-27 07:13:03
2026-05-27 17:28:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11906文章数 117085关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

受害者多为中国女性 震惊全球的迷奸案细节披露

头条要闻

受害者多为中国女性 震惊全球的迷奸案细节披露

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

ST岩石退市背后:A股“炒壳”时代终结

汽车要闻

6激光雷达 全主动悬架 全新一代问界M9上市47.98万元起

态度原创

房产
教育
时尚
健康
数码

房产要闻

地产投资又跌30%!连跌15月!海南房子将越来越少?

教育要闻

理解不等于记住,理解不等于考过!

多巴胺“粉”,赫本是这样穿的!

打外泌体会比干细胞更安全吗

数码要闻

TCL把618电视榜单包圆了!从入门到旗舰,四台爆款一次说清

无障碍浏览 进入关怀版