10年科学谜团，被谷歌“AI科学家”2天解决了|实验|智能体|遗传学|知名企业|ai科学家

分享至

智东西2月20日报道，用48小时破解生物学家苦心钻研10年的“超级细菌”难题，还可免费申请使用，这是谷歌研究院（Google Research）昨日在AI for Science领域发布的最新成果：一个基于Gemini 2.0构建的AI协作科学家。

▲AI协作科学家架构（图源：谷歌）

谷歌此番发布的AI协作科学家基于多智能体系统，能作为虚拟科研合作者，帮助科学家生成新颖的假设和研究提案。

在实际测试中，AI协作科学家已经展现出惊人的实力：它独立提出了一个关于细菌基因转移机制（耐药性）的新颖假设，发现了一款白血病治疗再利用候选药物，还识别出了肝纤维化治疗的遗传学靶点。

这些研究之前从来没有发表过，这表明AI协作科学家是自主得出这一见解的。

谷歌AI协作科学家完成的上述科研任务被专业人员界定为中等到超高难度。参与验证的科学家称，AI虽然无法进行证明假设的实验，但如果能在项目开始之初就得到相关假设，那么就能节省几年的工作。

AI协作科学家能生成并验证研究假设，通过模拟辩论和完善假设，构建知识网络并进化假设，最终生成研究概述供科学家审查。这一系统的目的不是完全取代人类科学家，人类能够全程参与并指导AI的推理过程，从而更好地满足科研实际需求。

目前，谷歌已经将AI协作科学家测试版免费提供给研究人员，并且还将发布一个API接口，以允许网站使用其基础技术。

▲AI协作科学家论文（图源：谷歌）

论文地址：

https://storage.googleapis.com/coscientist_paper/ai_coscientist.pdf

一、跨学科合作推动科学发现，AI协作科学家适用于多个领域

科学发现的过程一直依赖于跨学科的合作，这种模式在历史上促成了许多重大的科学突破。

谷歌研究院团队认为，随着大语言模型的发展、AI多模态理解能力的提升，科学家们现在可以使用这些技术，帮助他们跨越学科的界限，整合不同领域的知识和数据。

此前，获得诺贝尔奖的谷歌DeepMind CEO Demis Hassabis和研究总监John Jumper等人，通过发明AlphaFold彻底改变了生物学研究的游戏规则，这一系统能预测蛋白质结构，大幅度节省研究时间。此外，也有不少研究者开发了类似的AI工具。

不过，现有的AI系统在科学发现中的应用仍存在局限性。例如，一些系统依赖于回顾性数据，缺乏端到端验证；另一些系统虽然在文献总结方面表现出色，但在生成新的科学假设方面能力不足。

谷歌研究院此番推出的AI协作科学家通用性更强，适用于多个研究领域，不仅能够进行文献探索和假设验证，还能通过模拟科学辩论和自我批判来完善假设，从而加速科学发现的进程。这一系统还能结合专家反馈和实验室验证，确保生成的假设不仅新颖，而且具有实验验证的可行性。

他们的目标不是将科学发现工作完全自动化，而是为科学家打造一个强大的AI协作者。这一系统通过灵活的自然语言交互和专家反馈机制，确保科学家能够全程参与并指导AI的推理过程，从而更好地满足科学家的实际需求。

二、多智能体协作进行科研，不断自我批评、迭代

AI协作科学家系统由多个智能体组成，每个智能体负责不同的任务，包括生成假设、反思假设、排名假设、进化假设等。系统的核心是通过生成、辩论和进化的方法，结合科学方法的启发，利用计算资源的扩展来加速假设生成。

系统的设计包括以下几个关键组件：

1、自然语言交互界面（Natural Language Interface）

科学家通过自然语言与系统交互，定义研究目标、提供反馈、提出自己的想法，并指导系统的推理过程。

2、异步任务执行框架（Asynchronous Task Execution Framework）

系统采用异步任务队列管理多个智能体的工作流程。监督智能体（Supervisor Agent）负责分配任务、管理资源，并根据需要动态调整计算资源的分配。

3、专用智能体（Specialized Agents）

系统由多个智能体组成，每个智能体负责特定的推理任务，共同协作生成高质量的研究假设和实验方案。这些智能体包括：

生成智能体（Generation Agent）：负责生成初始假设和研究提案。

反思智能体（Reflection Agent）：对生成的假设进行评估和审查，确保其合理性、新颖性和可行性。

排名智能体（Ranking Agent）：通过锦标赛机制对假设进行排名，比较不同假设的优劣。

进化智能体（Evolution Agent）：通过改进和优化排名靠前的假设，提升其质量。

相似性智能体（Proximity Agent）：计算假设之间的相似性，帮助组织锦标赛并探索假设空间。

元评审智能体（Meta-review Agent）：总结锦标赛中的反馈和模式，优化其他智能体的表现，并生成研究概述。

4、上下文记忆（Context Memory）

系统使用持久化上下文记忆来存储和检索智能体和系统的状态，支持长周期的迭代计算和科学推理。

5、工具使用（Tool Use）

系统能够调用外部工具（如网络搜索、专用AI模型等），以增强生成假设的依据和质量，确保其科学性和可行性。

6、科学家反馈（Scientist Feedback）

科学家可以通过自然语言提供反馈，直接参与系统的推理过程，指导系统生成更符合需求的假设和研究方案。

7、研究概述生成（Research Overview Generation）

元评审智能体将排名靠前的假设总结为详细的研究概述，供科学家进一步评估和指导后续研究。

这一系统的高质量回答得益于其推理过程中使用的大量计算资源，也就是所谓的测试时计算（Test-time Compute）。测试时计算主要用于迭代推理、演化和改进输出。

关键推理步骤包括基于自博弈的科学辩论以生成新假设、排名锦标赛以比较假设，以及一个用于质量改进的“进化”过程。系统的Agent性质促进了递归自我批评，包括使用工具进行反馈以细化假设和提案。

系统的自我提升依赖于从锦标赛中得出的Elo自动评估指标。谷歌团队在GPQA diamond基准测试上验证了，更高的 Elo评级与正确率呈正相关。

在科研问题上，谷歌让7位人类专家策划15个开放性研究目标，并让人类专家给出最佳的假设解决方案。通过自动化的Elo评估指标，AI协作科学家在解决这些复杂问题时超越了其他最先进的智能体和推理模型。

扩展测试时计算在这一测试中得到了鲜明的展现。随着系统投入更多时间进行推理和改进，其自动评估结果质量逐渐提升，最终超越了其他模型和未经辅助的人类专家。

在11个研究目标上，专家们对AI协作科学家生成的结果与其他相关基线模型进行了比较，评估了其新颖性和影响力，并给出了总体偏好的评价。

尽管样本量较小，但专家们认为AI协作科学家在新颖性和影响力方面具有更高的潜力，并且更倾向于信任其输出结果。此外，这些人类专家的偏好与之前的Elo自动评估指标相一致。

三、可解决超高难度科研问题，回溯数十年文献得出新假设

谷歌在三个关键生物医学领域对AI协作科学家生成的假设和研究方案进行了端到端的实验室验证：药物再利用（中等难度）、提出新的治疗靶点（高难度），以及阐释抗菌素耐药性的机制（超高难度）。这些验证过程均在专家指导下进行。

1、急性髓系白血病的药物再利用

药物开发是一个日益耗时且成本高昂的过程，针对每种疾病或适应症，都需要重新启动发现和开发过程的许多环节。药物再利用通过发现现有药物的新治疗用途来应对这一挑战，但这一任务的复杂性要求具备广泛的跨学科专业知识。

谷歌的AI成功为急性髓系白血病（AML）提出了新的再利用候选药物，后续实验验证了这些提议，确认所建议的药物在多种AML细胞系中以临床相关浓度（能达到预期效果的最低或最高浓度）抑制肿瘤活性。

手机 / 数码

房产 / 家居

10年科学谜团，被谷歌“AI科学家”2天解决了

AI写小说的套路被扒光了

美国顶流网红现身中国陕西乡村 请求卡车司机捎他一段

美国顶流网红现身中国陕西乡村 请求卡车司机捎他一段

巴黎再度捧起欧冠奖杯 枪手众将黯然神伤

张碧晨《歌手》 “活人微死” 自嘲

字节跳动的 "一盘大棋"

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

尝试干细胞疗法如何避免踩坑？

红动五月！全国抢入核心资产，广州盯紧凯旋新世界！

《孩子高考在即 家长应知必会》公益专题访谈，5月30日19点30分进我直播间

伊姐周六热推：电视剧《樊笼》；电视剧《翘楚》......

云栖 舒展如流云

美国顶流网红现身中国陕西乡村请求卡车司机捎他一段

美国顶流网红现身中国陕西乡村请求卡车司机捎他一段

巴黎再度捧起欧冠奖杯枪手众将黯然神伤

900V+3.2秒破百领克10+&领克10上市16.99万元起

《孩子高考在即家长应知必会》公益专题访谈，5月30日19点30分进我直播间

云栖舒展如流云