网易首页 > 网易号 > 正文 申请入驻

谷歌发布 AI co-scientist:独自提出可验证科学假设,已有多项科研成果

0
分享至

提出一个新颖可行的研究方向,并清楚地知道如何进行后续的探索,对于加速科学发现至关重要。

然而,对于人类科学家而言,这是一个既有广度又有深度的难题,不仅需要了解本领域的最新进展,还需要整合陌生领域的知识。

今天,谷歌推出的虚拟科学合作伙伴 AI co-scientist,或许可以在「帮助人类追求科学进步」这件事上大有可为。

论文链接:

https://storage.googleapis.com/coscientist_paper/ai_coscientist.pdf

据介绍,AI co-scientist 是一个基于 Gemini 2.0 构建的多智能体 AI 系统,旨在反映科学方法的推理过程,发掘新的、原创性的知识。它并非要实现科学过程的自动化,而是一个“帮助专家收集研究成果和完善其工作的协作工具”、“虚拟的科学合作伙伴”。

自此,人类科学家只需使用自然语言指定一个研究目标——例如,更好地了解一种致病微生物的传播——AI co-scientist 便会提出可验证假设,以及相关已发表文献的摘要和可能的实验方法

谷歌首席执行官 Sundar Pichai 在 X 上表示,在 AI co-scientist 的帮助下,人类科学家已经“在肝纤维化治疗、抗菌素耐药性和药物再利用等重要研究领域看到了有希望的早期成果”。

赋能人类科学家,加速科学发现

根据谷歌官方博客的介绍,AI co-scientist 使用了一系列专业化的智能体(涉及生成、反思、排序、进化、接近和元评审),这些智能体受到科学方法本身的启发,并通过自动反馈来迭代生成、评估和优化假设,从而形成一个自我改进的循环,生成越来越高质量和新颖的输出。

视频|AI co-scientist 概述

AI co-scientist 专为协作而构建,科学家可以通过多种方式与系统互动,包括直接提供自己的不成熟想法来探索,或用自然语言对生成的输出提供反馈。AI co-scientist 还使用网页搜索和专门的 AI 模型等工具,来提高生成假设的基础和质量。

图|AI co-scientist 的不同组成部分,以及其与科学家之间的互动模式。

AI co-scientist 能够将指定的目标解析为研究计划配置,并由监督智能体(Supervisor agent)进行管理。监督智能体将专业智能体分配到工作队列中,并分配资源。这个设计使得 AI co-scientist 能够灵活地扩展计算能力,并通过迭代改进其科学推理能力,以实现指定的研究目标。

图|AI co-scientist 系统概览。专业智能体(红色方框,具有独特的角色和逻辑);科学家输入和反馈(蓝色方框);系统信息流(深灰色箭头);智能体间反馈(智能体部分内的红色箭头)。

扩展测试时计算,进行高级科学推理

AI co-scientist 利用测试时计算扩展,进行迭代推理、演化和改进输出。关键的推理步骤包括基于自我博弈的科学辩论(用于生成新的假设)、排名赛(用于进行假设比较),和“演化”过程(用于提高质量)。该系统的代理(agentic)特性促进了递归的自我批判,包括使用反馈工具完善假设和建议。

AI co-scientist 的自我完善依赖于从其竞赛中得出的 Elo 自动评估指标。由于 Elo 评分在系统中的核心作用,谷歌团队评估了更高的 Elo 评分是否与更高的输出质量相关,并分析了 Elo 自动评分与 GPQA 基准测试准确率在具有挑战性的钻石问题集中的一致性,结果表明,较高的 Elo 评分与较高的正确答案概率呈正相关。

图|AI co-scientist(蓝线)和 Gemini 2.0(红线)回答 GPQA 钻石问题的平均准确率,按 Elo 评级分组。Elo 是一种自动评估,并非基于独立的基本事实。

7 位领域专家策划了 15 个开放式研究目标和他们专业领域的最佳解决方案。通过使用自动化的 Elo 评分指标,谷歌团队观察到,AI co-scientist 在这些复杂问题上的表现优于其他 SOTA 智能体和推理模型,这体现了利用科学方法中的归纳偏差进行测试时计算的优势。随着系统在推理和改进上花费更多时间,自我评分的结果质量也得到了提升,并超过了其他模型和无辅助的人类专家。

图|AI co-scientist 的性能随着系统计算时间的增加而提高。这可以从自动 Elo 指标比其他基线逐步提高中看出。上图为评级最佳的假设的 Elo,下图为前 10 名假设的平均 Elo。

在一个包含 11 个研究目标的较小子集上,专家们评估了 AI co-scientist 生成的结果在新颖性和影响力方面与其他相关基准相比的表现,并且提供了整体偏好。尽管样本量较小,但专家们评估认为 AI co-scientist 在新颖性和影响力方面具有更高的潜力。此外,这些人类专家的偏好似乎与之前介绍的 Elo 自动评估指标一致。

图|人类专家认为,AI co-scientist 的成果具有更高的新颖性和影响力(上图),与其他模型相比更受青睐(下图)。

在真实世界的表现如何?

为了评估该系统新颖预测的实际效用,谷歌团队评估了端到端的实验室实验,在 3 个关键的生物医学应用中探究了 AI co-scientist 生成的假设和研究建议:药物再利用、提出新的治疗靶点以及阐明抗菌药耐药性的机制。这些实验都涉及专家参与的指导:

1.急性髓性白血病的药物再利用

药物开发是一个日益耗时且昂贵的过程,新疗法需要针对每个适应症或疾病重新启动发现和开发过程的多个方面。为了应对这一挑战,药物再利用技术为现有药物发现了超出其原始用途的新治疗应用。然而,由于这项任务的复杂性,它需要广泛的跨学科专业知识。

谷歌团队应用AI共同科学家来协助预测药物再利用的机会,并与其团队合作伙伴一起,通过计算生物学、专家临床反馈和体外实验来验证预测结果。

值得注意的是,AI共同科学家提出了急性髓性白血病(AML)的新型再利用候选药物。随后的实验验证了这些提议,确认所提议的药物在多个AML细胞系中,在临床相关浓度下抑制了肿瘤细胞的存活能力。

图|由 AI co-scientist 预测的急性髓细胞性白血病再利用药物之一的剂量-反应曲线。在临床相关浓度下,KIRA6 可抑制 KG-1(急性髓系白血病细胞株)的活力。以较低的药物浓度降低癌细胞活力具有多种优势,例如,它可以降低产生脱靶副作用的可能性。

2.推动肝纤维化的靶点发现

识别新治疗靶点比药物再利用更为复杂,往往会导致体外和体内实验的假设选择效率低下、优先级排序不当。AI 辅助的靶点发现有助于简化实验验证过程,从而降低研发时间成本。

谷歌团队以肝脏纤维化为重点,测试了 AI co-scientist 提出、排列和生成靶点发现假设和实验方案的能力。AI co-scientist 通过在人类肝脏器官组织(源自人类细胞的三维多细胞组织培养物,旨在模拟人类肝脏的结构和功能)中识别具有显著抗纤维化活性的临床前证据基础的表观遗传靶点,证明了其潜力。

图|AI co-scientist 建议的肝纤维化靶点治疗与纤维化诱导剂(阴性对照)和抑制剂(阳性对照)的比较。AI co-scientist 建议的所有治疗方法都显示出良好的活性(所有建议药物的 p 值均小于 0.01),包括可能逆转疾病表型的候选药物。

3.解释抗菌药耐药性机制

作为第三项验证,谷歌团队侧重于提出假设,解释与抗菌药耐药性(AMR)相关的细菌基因转移进化机制,即微生物进化出的抵抗治疗感染药物的机制。这是另一个复杂的挑战,涉及到理解基因转移的分子机制(共轭、转导和转化),以及推动 AMR 基因传播的生态和进化压力。

在此测试中,专家研究人员指示 AI co-scientist 探讨一个已在他们小组中取得新发现,但尚未公开的主题,即解释衣壳形成的噬菌体诱导型染色体岛(cf-PICI)如何在多种细菌物种中存在。

AI co-scientist 独立提出了“cf-PICI 与不同噬菌体尾部相互作用以扩大其宿主范围”的观点。在使用 AI co-scientist 之前,谷歌团队已经在原始的实验室实验中验证了这一发现。这展示了 AI co-scientist 作为辅助技术的价值,因为它能够利用数 10 年的研究成果,包括之前所有关于这一主题的开放存取文献。

局限性与展望

在技术报告中,谷歌团队也讨论了 AI co-scientist 的几个局限性和改进机会,包括增强文献综述、事实核查、与外部工具的交叉检查、自动评估技术,以及涉及更多学科专家和多样化研究目标的大规模评估。

他们也表示,AI co-scientist 代表了向 AI 辅助技术迈出的重要一步,有助于科学家加速发现。其在多个科学和生物医学领域生成新颖、可验证的假设的能力,以及通过增加计算能力进行递归自我改进的能力,展示了它在加速科学家应对科学和医学重大挑战方面的潜力。

整理:陈小宇 编审:学术君

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026年河北高考最高分的榜单走红网络!网友:衡水中学跌落神坛了

2026年河北高考最高分的榜单走红网络!网友:衡水中学跌落神坛了

火山詩话
2026-06-25 15:32:30
22岁失足女爱上飞行员,2019年缠绵多次谎称怀孕,想要嫁给飞行员

22岁失足女爱上飞行员,2019年缠绵多次谎称怀孕,想要嫁给飞行员

汉史趣闻
2026-06-25 08:29:49
致命“晾衣架”:一场火灾致两死五伤,159万元判决成“白条”

致命“晾衣架”:一场火灾致两死五伤,159万元判决成“白条”

大风新闻
2026-06-25 12:31:28
电影《抓特务》资本曝光!冯小刚布局30年,被当炮灰的不止是韩红

电影《抓特务》资本曝光!冯小刚布局30年,被当炮灰的不止是韩红

秋姐居
2026-06-25 16:41:08
爆发冲突!韩国队不满南非队员大声庆祝 黄仁范:别跟叫狗一样叫我

爆发冲突!韩国队不满南非队员大声庆祝 黄仁范:别跟叫狗一样叫我

风过乡
2026-06-25 13:46:38
韩红被质疑“走到哪,哪就是她的老家”,央媒报道显示,其生于西藏昌都,两岁时前往成都,后定居北京,祖籍山东德州,并非在西藏长大

韩红被质疑“走到哪,哪就是她的老家”,央媒报道显示,其生于西藏昌都,两岁时前往成都,后定居北京,祖籍山东德州,并非在西藏长大

大风新闻
2026-06-25 14:15:08
消费实在太惨了,人都麻了

消费实在太惨了,人都麻了

七叔东山再起
2026-06-24 23:32:48
全网上百万人在等的数学老师“勇哥”出分了:131分!“不满意但有惊喜,明年会做更充分的准备,力争135分以上”

全网上百万人在等的数学老师“勇哥”出分了:131分!“不满意但有惊喜,明年会做更充分的准备,力争135分以上”

极目新闻
2026-06-25 14:33:30
面对“打平即出线”,韩国队又输了

面对“打平即出线”,韩国队又输了

澎湃新闻
2026-06-25 10:58:28
市监总局、住建部联合整治甲醛治理和检测乱象,严打检测报告造假等行为

市监总局、住建部联合整治甲醛治理和检测乱象,严打检测报告造假等行为

澎湃新闻
2026-06-25 11:02:31
导弹、核武、稀土都奈何不了日本,唯独中国一查间谍,日本就急了

导弹、核武、稀土都奈何不了日本,唯独中国一查间谍,日本就急了

安安说
2026-06-25 11:24:32
四川省2026年高考分数线公布

四川省2026年高考分数线公布

新京报
2026-06-25 17:32:13
投资600万元的加油站,建成即被“责令限期拆除”?河南淮滨县发布情况通报

投资600万元的加油站,建成即被“责令限期拆除”?河南淮滨县发布情况通报

环球网资讯
2026-06-25 14:21:30
增强成人内容生成,已成马斯克旗下Grok的主要流量增长策略

增强成人内容生成,已成马斯克旗下Grok的主要流量增长策略

不看车bukanche
2026-06-25 11:12:54
快讯!大陆国台办就郑丽文行径发声了!

快讯!大陆国台办就郑丽文行径发声了!

有态度的何总
2026-06-25 12:50:50
日元暴跌破40年纪录!日本狂抛美债救市,美国反手收紧致命枷锁

日元暴跌破40年纪录!日本狂抛美债救市,美国反手收紧致命枷锁

李健政观察
2026-06-25 11:20:16
博主怒批《抓特务》:整个电影都是私货堆起来的,怎么过审的?

博主怒批《抓特务》:整个电影都是私货堆起来的,怎么过审的?

小徐讲八卦
2026-06-25 16:41:12
4年前花21亿买下“废铁”,如今江苏首富让欧美船东跪着求订单

4年前花21亿买下“废铁”,如今江苏首富让欧美船东跪着求订单

毒sir财经
2026-06-25 15:07:38
武汉监委原委员之子在港洗钱6400万!辩称“卖比特币”被当庭驳回

武汉监委原委员之子在港洗钱6400万!辩称“卖比特币”被当庭驳回

听心堂
2026-06-25 09:16:46
过期一天就绝对不能碰的10种危险食物,第一名你可能经常舍不得扔

过期一天就绝对不能碰的10种危险食物,第一名你可能经常舍不得扔

娱乐的硬糖吖
2026-06-24 17:00:21
2026-06-25 19:51:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1434文章数 5081关注度
往期回顾 全部

科技要闻

宇树机器人大降价

头条要闻

特朗普又点名抱怨意英德法西五国:我很失望

头条要闻

特朗普又点名抱怨意英德法西五国:我很失望

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

东风奕派纳米06智趣版上市 指导价9.99万元起

态度原创

房产
艺术
本地
旅游
公开课

房产要闻

万万没想到 这家国企造的住宅竟成了区域顶流!

艺术要闻

敦煌挖出宇宙轮回图,领先西方科技1000年

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

旅游要闻

卡皮巴拉、羊驼、逗号鸟都来了!上博“美洲‘萌萌TA’奇妙夜”夏夜开逛

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版