研究周期缩短至分钟级，开源系统解决AI研究工具关键局限|智能体|工作流|知识库|深度思考按钮

研究周期缩短至分钟级，开源系统解决AI研究工具关键局限

2026-01-27 18:09:44　来源: ScienceAI

河北举报

分享至

编辑丨coisini

面向科学发现的人工智能系统已展现出巨大潜力，但现有方法大多仍属私有技术，且以批处理模式运行，每个研究周期需要数小时，无法实现研究人员的实时引导。

最近，一篇题为《Rethinking the AI Scientist: Interactive Multi-Agent Workflows for Scientific Discovery》的研究论文提出了一个多智能体系统 ——Deep Research，能在以分钟计的时间内完成交互式科学研究。

论文地址：https://arxiv.org/abs/2601.12542

Deep Research 包含用于规划、数据分析、文献检索和新颖性检测的专用智能体，并通过一个持久的全局状态统一协调，以在迭代的研究周期中保持上下文连贯。

该系统支持两种操作模式以适应不同工作流程：半自主模式包含选择性人工检查点；全自主模式用于扩展性研究。

Deep Research

Deep Research 通过构建基于智能体的交互式环境，将研究周期从小时级缩短至分钟级，从而实现对研究过程的实时主动引导，无需等待可能需要完全重做才能探索新方向的批量结果，有效解决了现有 AI 驱动研究工具的关键局限。

该系统包含四个专门化智能体：

协调智能体（orchestrator agent），负责在研究周期中维护持久的世界状态（world state）；
数据分析智能体，通过迭代式代码生成与知识库构建来分解复杂分析任务；
文献检索智能体，综合来自异构学术数据库的证据；
新颖性检测智能体，依据现有文献，对所提假设进行新颖性评估。

该系统支持两种运行模式。半自主模式引入人机协同交互，打造真正的「科学家协作者」体验：研究人员可在单次工作会话中迭代式指导并优化 AI 研究过程，根据实时涌现的洞察及时调整研究方向，而无需等待数小时的批处理结果 —— 传统方式往往需要完全重新执行才能探索替代假设。全自主模式则可在无人工干预检查点的情况下执行扩展研究周期，适用于对目标明确的研究任务进行系统性探索。

研究团队现已开源协调智能体 ——BioAgents 框架，但生物数据分析和生物文献检索组件尚未发布。未来的开发将侧重于扩展数据库覆盖范围，通过改进语义表征来优化新颖性检测，并将基准验证延伸至更多科学领域。

BioAgents 开源地址：https://github.com/bio-xyz/BioAgents

实验评估

Deep Research 在 BixBench 计算生物学基准测试上取得了 SOTA 性能，同时提供了交互式、人机协同的工作流，这与现有系统普遍采用的批处理方法形成鲜明对比。

数据分析智能体在开放式问题上的准确率达到 48.8%：

在含「Refusal」选项的多选题上准确率为 55.2%：

在不含该选项的多选题上准确率为 64.5%：

这些结果超越了 Edison Analysis、K-Dense Analyst、Kepler 和 GPT-5 等现有基线。

详细的案例研究证实，Deep Research 的性能优势源于正确的数据结构化与统计执行，而非依赖于对答案选项的先验知识。

感兴趣的读者可以阅读论文原文，了解更多研究内容。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.