![]()
编辑丨coisini
面向科学发现的人工智能系统已展现出巨大潜力,但现有方法大多仍属私有技术,且以批处理模式运行,每个研究周期需要数小时,无法实现研究人员的实时引导。
最近,一篇题为《Rethinking the AI Scientist: Interactive Multi-Agent Workflows for Scientific Discovery》的研究论文提出了一个多智能体系统 ——Deep Research,能在以分钟计的时间内完成交互式科学研究。
![]()
论文地址:https://arxiv.org/abs/2601.12542
Deep Research 包含用于规划、数据分析、文献检索和新颖性检测的专用智能体,并通过一个持久的全局状态统一协调,以在迭代的研究周期中保持上下文连贯。
该系统支持两种操作模式以适应不同工作流程:半自主模式包含选择性人工检查点;全自主模式用于扩展性研究。
Deep Research
Deep Research 通过构建基于智能体的交互式环境,将研究周期从小时级缩短至分钟级,从而实现对研究过程的实时主动引导,无需等待可能需要完全重做才能探索新方向的批量结果,有效解决了现有 AI 驱动研究工具的关键局限。
该系统包含四个专门化智能体:
- 协调智能体(orchestrator agent),负责在研究周期中维护持久的世界状态(world state);
- 数据分析智能体,通过迭代式代码生成与知识库构建来分解复杂分析任务;
- 文献检索智能体,综合来自异构学术数据库的证据;
- 新颖性检测智能体,依据现有文献,对所提假设进行新颖性评估。
![]()
该系统支持两种运行模式。半自主模式引入人机协同交互,打造真正的「科学家协作者」体验:研究人员可在单次工作会话中迭代式指导并优化 AI 研究过程,根据实时涌现的洞察及时调整研究方向,而无需等待数小时的批处理结果 —— 传统方式往往需要完全重新执行才能探索替代假设。全自主模式则可在无人工干预检查点的情况下执行扩展研究周期,适用于对目标明确的研究任务进行系统性探索。
研究团队现已开源协调智能体 ——BioAgents 框架,但生物数据分析和生物文献检索组件尚未发布。未来的开发将侧重于扩展数据库覆盖范围,通过改进语义表征来优化新颖性检测,并将基准验证延伸至更多科学领域。
![]()
BioAgents 开源地址:https://github.com/bio-xyz/BioAgents
![]()
实验评估
Deep Research 在 BixBench 计算生物学基准测试上取得了 SOTA 性能,同时提供了交互式、人机协同的工作流,这与现有系统普遍采用的批处理方法形成鲜明对比。
![]()
数据分析智能体在开放式问题上的准确率达到 48.8%:
![]()
在含「Refusal」选项的多选题上准确率为 55.2%:
![]()
在不含该选项的多选题上准确率为 64.5%:
![]()
这些结果超越了 Edison Analysis、K-Dense Analyst、Kepler 和 GPT-5 等现有基线。
详细的案例研究证实,Deep Research 的性能优势源于正确的数据结构化与统计执行,而非依赖于对答案选项的先验知识。
![]()
感兴趣的读者可以阅读论文原文,了解更多研究内容。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.