哈佛、MIT全新开源框架ToolUniverse实现「可编程的科学协作」|调用|智能体|工作流

分享至

作者 | 论文团队

编辑 | ScienceAI

科学史的每一次飞跃，往往伴随着工具的革新。随着近期大模型和智能体的飞速发展，这条路径正在通向一种全新的阶段：“AI 科学家”。在 AI 赋能科研的前沿，我们正见证一个重要的里程碑：从证明 AI 智能体 “能否” 解决特定科学问题，转向思考如何让它 “高效、可靠、规模化” 地参与整个研究过程。

Nature 在近期发布的新闻解析《How AI agents will change research: a scientist’s guide》中，报道了由哈佛大学 Marinka Zitnik 和高尚华团队与 MIT 发布的首款大规模工具开源框架 - ToolUniverse，这一开放的在线环境让研究人员能够用自然语言将各类大模型和智能体连接到不同科学领域常用的工具，为打造 AI 科学家奠定了基础。

ToolUniverse 网站：https://aiscientist.tools/

论文详解：https://arxiv.org/abs/2509.23426

代码开源：https://github.com/mims-harvard/ToolUniverse

1. 当 AI 生成模型不再足够：AI 科学家为何而来？

传统 LLM（大语言模型）的核心能力是 “文本生成”，但科学研究需要的远不止于此：它需要分解复杂问题（如 “如何优化降胆固醇药物”）、规划实验步骤、调用专业工具（如分子模拟软件）、验证数据合理性，甚至在结果偏离预期时自我修正。这种 “推理 + 行动” 的闭环，正是 AI 从 “模型” 升级为 “科学家” 的关键。

AI 智能体的突破在于将 LLM 与三大机制深度耦合：

1. 规划能力：将 “发现新药物” 拆解为 “靶点识别→化合物筛选→性质优化→专利验证” 等可执行步骤；

2. 记忆系统：追踪中间结果（如 “某化合物对肝组织的渗透率”），避免重复计算或逻辑断裂；

3. 工具调用：连接外部数据库、模拟器、分析软件，弥补 LLM 自身在专业计算（如分子结合能预测）上的短板。

但科学研究的特殊性给 AI 智能体其提出了更高要求：不同学科（生物、化学、物理）的工具格式不统一、数据需可复现、实验流程需严谨验证。若仅依赖通用的工具调用协议（如 MCP，模型上下文协议），无法解决 “如何让 AI 理解质谱数据格式”“如何协调分子模拟与临床数据库的输出” 等专业问题。而这，正是 ToolUniverse 解决的核心问题之一。

2. ToolUniverse：科学 AI Agent 的生态基石

ToolUniverse 并非单一工具，而是一套 “连接 LLM 与科学工具” 的标准化生态（图 1）。它的核心目标是：让任何 LLM 都能通过统一接口，调用 600 + 科学工具，完成从 “提出假设” 到 “验证结论” 的全流程研究。

图 1：ToolUniverse 是一个用于打造 AI 科学家的生态系统。通用型大语言模型（LLM）、推理模型与智能体可连接 ToolUniverse 提供的 600 余种科学工具，实现科研工作流自动化。

3. 统一科学工具的 “HTTP”：解决三大痛点

就像 HTTP 协议统一了互联网通信，ToolUniverse 为 AI 科学家定义了专属的 “科学工具交互标准”（图 2），既能够无缝集成本地部署的开源工具，也能安全、规范地连接强大的闭源模型与 API 服务，解决了 MCP 协议在科研场景中的三大痛点：

图 2: ToolUniverse 通过统一协议连接机器学习模型、智能体、科学软件工具、数据库与 API。它引入了标准化的工具规范框架，使语言模型能够一致地发现、调用并解析各类工具。类似于 HTTP 在互联网通信中确立标准的方式，ToolUniverse 协议通过两项核心操作：Find Tool（查找工具）与 Call Tool（调用工具），定义了 AI 科学家如何请求工具并接收结果。

1. 工具发现难：通过 “Tool Finder” 组件，AI 可结合关键词搜索、向量嵌入检索、LLM 推理，从 600 + 工具中精准匹配需求（如 “需要预测化合物肝毒性” 时，自动定位 ADMET-AI 工具）；

2. 调用不规范：“Tool Caller” 组件会先验证输入（如分子结构格式是否符合 SMILES 标准），再执行工具，最后将输出转化为结构化数据（如 “结合能 - 8.2 kcal/mol” 而非杂乱文本）；

3. 推理难闭环：新增 “推理控制层”，让 AI 能理解工具输出的科学意义（如 “该化合物脑渗透率高→可能引发中枢副作用”），而非仅机械调用。

这种标准化设计，让 AI 从 “会用工具” 升级为 “会用科学工具解决问题”。

4. 四大核心组件：支撑 AI 科学家的完整生命周期

ToolUniverse 通过四大组件（图 3），覆盖了 AI 科学家从 “工具获取” 到 “ workflow 优化” 的全流程需求，真正实现 “可编程的科学协作”：

（1）Tool Manager：工具的 “注册与管理中心”

它解决了 “如何将新工具接入生态” 的问题：

1. 本地工具（如实验室自研的数据分析脚本）只需提交 “功能描述 + 参数格式 + 输出示例”，即可被自动纳入统一 schema；

2. 远程工具（如云端分子模拟平台）通过 MCP 协议接入，无需暴露内部代码，兼顾安全性与兼容性；

3. 自动验证工具有效性（如 “输入错误分子结构时是否返回提示”），确保 AI 调用时的可靠性。

（2）Tool Composer：科学 workflow 的 “搭建者”

科学研究很少依赖单一工具，比如 “药物筛选” 需要串联 “靶点数据库→化合物库→分子对接工具→毒性预测工具”。Tool Composer 的作用就是：

1. 定义工具间的数据流（如 “分子对接工具的输出结构，直接作为毒性预测工具的输入”）；

2. 支持条件逻辑（如 “若毒性预测超标，则返回上一步重新筛选化合物”）；

3. 生成可复现的 workflow 脚本，方便人类科学家追溯或修改。

4. 通过智能体系统，实现工具间调用关系的自动构建与优化。

（3）Tool Discover：工具的 “自动生成器”

当现有工具无法满足需求（如 “需要一种新的基因表达数据可视化工具”），AI 可通过自然语言描述需求，Tool Discover 会：

1. 将文本描述转化为结构化工具规格（如 “输入：CSV 格式表达矩阵；输出：热图 + 火山图”）；

2. 自动生成代码、测试用例，通过 “预期行为 vs 实际输出” 的反馈循环迭代优化；

3. 无需人工编码，让工具库随科研需求动态扩展。

（4）Tool Optimizer：工具的 “质量守护者”

科学研究强调可复现性，Tool Optimizer 通过三大动作保障工具稳定性：

1. 定期生成测试用例（如 “用已知活性的化合物验证分子对接工具的准确性”）；

2. 分析工具输出与规格的偏差（如 “某工具预测的结合能与实验值误差突然增大”）；

3. 自动更新工具文档或参数设置，确保 AI 调用时的一致性。

图 3: ToolUniverse 提供了六项关键能力，支持 AI 科学家完整的生命周期：查找工具、调用工具、添加新工具、将工具串联为工作流、从自然语言生成新工具，以及优化工具规范以提升可用性。

5. 跨模型兼容：让每类 LLM 都能成为科学助手

不同科研场景对 LLM 的需求差异极大：实验室本地分析可能需要轻量开源模型（如 Llama 3），而复杂 hypothesis 推理可能依赖云端大模型（如 Claude 3），生物医药研究还需专业模型（如 TxAgent）。

ToolUniverse 的兼容性设计打破了 “模型绑定” 局限（图 4）：它将工具调用转化为 “标准化函数调用”，无需修改 LLM 的权重或 Tokenizer—— 只需通过轻量级包装器，向模型传递 “工具列表 + 参数格式”，模型输出即可被解析为工具调用指令。

这种设计的价值在于：

科研团队可根据成本、隐私需求选择模型，无需担心 “换模型就要重写工具调用逻辑”；

能在相同实验条件下对比不同模型的性能（如 “用 Gemini-CLI vs Claude 3 做药物筛选，哪个准确率更高”）；

支持专业模型与通用工具的结合（如 “让 TxAgent 调用 ChEMBL 数据库，分析药物 - 靶点相互作用”）。

图 4: ToolUniverse 为构建不同类型的 AI 科学家提供了简洁而高效的协议：既可用于基于通用大语言模型（如左图的 Claude），也可用于具备更强推理与控制能力的智能体系统（如右图的 Gemini-CLI），以及专注于生物医学研究的 AI 智能体（如 TxAgent）。

6. 案例实证：AI 科学家如何优化降胆固醇药物

理论架构需要实践验证。我们以 “寻找更安全的降胆固醇药物” 为例，看看 ToolUniverse 构建的 AI 科学家（基于 Gemini-CLI agent）如何完成全流程研究（图 5）。

步骤 1：靶点识别 —— 锁定 “关键蛋白”

AI 首先调用 “文献挖掘工具” 和 “药物 - 靶点数据库”，通过分析 thousands of 研究论文与临床数据，得出结论：HMG-CoA 还原酶是胆固醇合成的关键酶，且该酶在肝脏外的过度抑制会引发肌肉疼痛等副作用。这一步完全复刻了人类科学家的 “靶点发现” 逻辑，但效率提升 10 倍以上。

步骤 2：起始化合物筛选 —— 从现有药物入手

AI 通过 ToolUniverse 查询 “已上市降胆固醇药物库”，筛选出以 HMG-CoA 还原酶为靶点的药物，最终选择 “洛伐他汀（lovastatin）” 作为起始化合物 —— 理由是 “临床验证充分，但肝外组织渗透率高，存在副作用风险”。

步骤 3：化合物优化 —— 提升安全性与有效性

AI 调用三大工具协作：

ChEMBL 数据库：获取洛伐他汀的 100 + 结构类似物；

Boltz-2 工具：预测每个类似物与 HMG-CoA 还原酶的结合能（数值越低，结合越强）；

ADMET-AI 工具：预测类似物的肝渗透率、脑渗透率、代谢稳定性。

通过综合排序，AI 筛选出两个候选：

普伐他汀（pravastatin）：已知药物，肝外渗透率低，副作用更少（验证了 AI 的可靠性）；

CHEMBL2347006/CHEMBL3970138：新化合物，结合能比洛伐他汀高 30%，脑渗透率降低 50%，生物利用度提升 25%。

步骤 4：专利与验证 —— 规避法律风险

最后，AI 调用 “专利检索工具”，发现新化合物已被注册用于心血管疾病治疗，虽无法直接开发，但为后续结构修饰提供了方向。

整个过程中，AI 不仅完成了 “调用工具” 的动作，更体现了科学推理能力：它能解释 “为何选择该靶点”“为何淘汰某化合物”，甚至能根据副作用风险调整优化方向 —— 这正是 “AI 科学家” 与普通工具调用的本质区别。

图 5：展示了一个基于 ToolUniverse 构建并应用于药物发现的 AI 科学家实例。该系统与 Gemini-CLI 智能体相连，能够识别生物学靶点、筛选并优化候选药物、评估分子性质，并利用计算工具验证结果。整个工作流程展示了 AI 科学家如何在药物研发的各个阶段进行推理、整合多源证据，并在必要时融入人类反馈。

7. 从用到建：当 “使用者” 成为 “共创者”

一个健康的生态系统，其生命力不仅来源于使用，更来源于创造与贡献。

ToolUniverse 内置了 Tool Discover 和 Tool Optimizer 等核心组件。前者允许用户通过自然语言描述，自动化生成新工具的规范与代码框架；后者能通过多轮测试与反馈，持续优化现有工具的说明与易用性。这一机制巧妙地将用户从纯粹的 “消费者” 转变为潜在的 “共建者”，激励社区智慧反哺生态，形成一个自我完善、持续生长的良性循环。

ToolUniverse 的终极愿景，是赋能各个科学领域的专家，而不仅仅是 AI 专家。当生物学家、化学家、药物研发人员能够基于一个稳定、丰富的工具生态，轻松定制符合其独特研究需求的 “AI 科研伙伴” 时，或许将迎来一个真正 AI 辅助科研的全新时代。AI 科学家不仅能调用数据库、模拟器，还能通过标准化协议控制实验室自动化设备（如液体处理机器人、质谱仪），实现 “提出假设→设计实验→自动执行→分析结果” 的全流程闭环。

当 AI 能真正理解科学问题、自主协调工具、与人类共同推进认知边界时，我们或许正站在 “科学发现新范式” 的起点。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.