网易首页 > 网易号 > 正文 申请入驻

谷歌发布 AI co-scientist:独自提出可验证科学假设,已有多项科研成果

0
分享至

提出一个新颖可行的研究方向,并清楚地知道如何进行后续的探索,对于加速科学发现至关重要。

然而,对于人类科学家而言,这是一个既有广度又有深度的难题,不仅需要了解本领域的最新进展,还需要整合陌生领域的知识。

今天,谷歌推出的虚拟科学合作伙伴 AI co-scientist,或许可以在「帮助人类追求科学进步」这件事上大有可为。

论文链接:

https://storage.googleapis.com/coscientist_paper/ai_coscientist.pdf

据介绍,AI co-scientist 是一个基于 Gemini 2.0 构建的多智能体 AI 系统,旨在反映科学方法的推理过程,发掘新的、原创性的知识。它并非要实现科学过程的自动化,而是一个“帮助专家收集研究成果和完善其工作的协作工具”、“虚拟的科学合作伙伴”。

自此,人类科学家只需使用自然语言指定一个研究目标——例如,更好地了解一种致病微生物的传播——AI co-scientist 便会提出可验证假设,以及相关已发表文献的摘要和可能的实验方法

谷歌首席执行官 Sundar Pichai 在 X 上表示,在 AI co-scientist 的帮助下,人类科学家已经“在肝纤维化治疗、抗菌素耐药性和药物再利用等重要研究领域看到了有希望的早期成果”。

赋能人类科学家,加速科学发现

根据谷歌官方博客的介绍,AI co-scientist 使用了一系列专业化的智能体(涉及生成、反思、排序、进化、接近和元评审),这些智能体受到科学方法本身的启发,并通过自动反馈来迭代生成、评估和优化假设,从而形成一个自我改进的循环,生成越来越高质量和新颖的输出。

视频|AI co-scientist 概述

AI co-scientist 专为协作而构建,科学家可以通过多种方式与系统互动,包括直接提供自己的不成熟想法来探索,或用自然语言对生成的输出提供反馈。AI co-scientist 还使用网页搜索和专门的 AI 模型等工具,来提高生成假设的基础和质量。

图|AI co-scientist 的不同组成部分,以及其与科学家之间的互动模式。

AI co-scientist 能够将指定的目标解析为研究计划配置,并由监督智能体(Supervisor agent)进行管理。监督智能体将专业智能体分配到工作队列中,并分配资源。这个设计使得 AI co-scientist 能够灵活地扩展计算能力,并通过迭代改进其科学推理能力,以实现指定的研究目标。

图|AI co-scientist 系统概览。专业智能体(红色方框,具有独特的角色和逻辑);科学家输入和反馈(蓝色方框);系统信息流(深灰色箭头);智能体间反馈(智能体部分内的红色箭头)。

扩展测试时计算,进行高级科学推理

AI co-scientist 利用测试时计算扩展,进行迭代推理、演化和改进输出。关键的推理步骤包括基于自我博弈的科学辩论(用于生成新的假设)、排名赛(用于进行假设比较),和“演化”过程(用于提高质量)。该系统的代理(agentic)特性促进了递归的自我批判,包括使用反馈工具完善假设和建议。

AI co-scientist 的自我完善依赖于从其竞赛中得出的 Elo 自动评估指标。由于 Elo 评分在系统中的核心作用,谷歌团队评估了更高的 Elo 评分是否与更高的输出质量相关,并分析了 Elo 自动评分与 GPQA 基准测试准确率在具有挑战性的钻石问题集中的一致性,结果表明,较高的 Elo 评分与较高的正确答案概率呈正相关。

图|AI co-scientist(蓝线)和 Gemini 2.0(红线)回答 GPQA 钻石问题的平均准确率,按 Elo 评级分组。Elo 是一种自动评估,并非基于独立的基本事实。

7 位领域专家策划了 15 个开放式研究目标和他们专业领域的最佳解决方案。通过使用自动化的 Elo 评分指标,谷歌团队观察到,AI co-scientist 在这些复杂问题上的表现优于其他 SOTA 智能体和推理模型,这体现了利用科学方法中的归纳偏差进行测试时计算的优势。随着系统在推理和改进上花费更多时间,自我评分的结果质量也得到了提升,并超过了其他模型和无辅助的人类专家。

图|AI co-scientist 的性能随着系统计算时间的增加而提高。这可以从自动 Elo 指标比其他基线逐步提高中看出。上图为评级最佳的假设的 Elo,下图为前 10 名假设的平均 Elo。

在一个包含 11 个研究目标的较小子集上,专家们评估了 AI co-scientist 生成的结果在新颖性和影响力方面与其他相关基准相比的表现,并且提供了整体偏好。尽管样本量较小,但专家们评估认为 AI co-scientist 在新颖性和影响力方面具有更高的潜力。此外,这些人类专家的偏好似乎与之前介绍的 Elo 自动评估指标一致。

图|人类专家认为,AI co-scientist 的成果具有更高的新颖性和影响力(上图),与其他模型相比更受青睐(下图)。

在真实世界的表现如何?

为了评估该系统新颖预测的实际效用,谷歌团队评估了端到端的实验室实验,在 3 个关键的生物医学应用中探究了 AI co-scientist 生成的假设和研究建议:药物再利用、提出新的治疗靶点以及阐明抗菌药耐药性的机制。这些实验都涉及专家参与的指导:

1.急性髓性白血病的药物再利用

药物开发是一个日益耗时且昂贵的过程,新疗法需要针对每个适应症或疾病重新启动发现和开发过程的多个方面。为了应对这一挑战,药物再利用技术为现有药物发现了超出其原始用途的新治疗应用。然而,由于这项任务的复杂性,它需要广泛的跨学科专业知识。

谷歌团队应用AI共同科学家来协助预测药物再利用的机会,并与其团队合作伙伴一起,通过计算生物学、专家临床反馈和体外实验来验证预测结果。

值得注意的是,AI共同科学家提出了急性髓性白血病(AML)的新型再利用候选药物。随后的实验验证了这些提议,确认所提议的药物在多个AML细胞系中,在临床相关浓度下抑制了肿瘤细胞的存活能力。

图|由 AI co-scientist 预测的急性髓细胞性白血病再利用药物之一的剂量-反应曲线。在临床相关浓度下,KIRA6 可抑制 KG-1(急性髓系白血病细胞株)的活力。以较低的药物浓度降低癌细胞活力具有多种优势,例如,它可以降低产生脱靶副作用的可能性。

2.推动肝纤维化的靶点发现

识别新治疗靶点比药物再利用更为复杂,往往会导致体外和体内实验的假设选择效率低下、优先级排序不当。AI 辅助的靶点发现有助于简化实验验证过程,从而降低研发时间成本。

谷歌团队以肝脏纤维化为重点,测试了 AI co-scientist 提出、排列和生成靶点发现假设和实验方案的能力。AI co-scientist 通过在人类肝脏器官组织(源自人类细胞的三维多细胞组织培养物,旨在模拟人类肝脏的结构和功能)中识别具有显著抗纤维化活性的临床前证据基础的表观遗传靶点,证明了其潜力。

图|AI co-scientist 建议的肝纤维化靶点治疗与纤维化诱导剂(阴性对照)和抑制剂(阳性对照)的比较。AI co-scientist 建议的所有治疗方法都显示出良好的活性(所有建议药物的 p 值均小于 0.01),包括可能逆转疾病表型的候选药物。

3.解释抗菌药耐药性机制

作为第三项验证,谷歌团队侧重于提出假设,解释与抗菌药耐药性(AMR)相关的细菌基因转移进化机制,即微生物进化出的抵抗治疗感染药物的机制。这是另一个复杂的挑战,涉及到理解基因转移的分子机制(共轭、转导和转化),以及推动 AMR 基因传播的生态和进化压力。

在此测试中,专家研究人员指示 AI co-scientist 探讨一个已在他们小组中取得新发现,但尚未公开的主题,即解释衣壳形成的噬菌体诱导型染色体岛(cf-PICI)如何在多种细菌物种中存在。

AI co-scientist 独立提出了“cf-PICI 与不同噬菌体尾部相互作用以扩大其宿主范围”的观点。在使用 AI co-scientist 之前,谷歌团队已经在原始的实验室实验中验证了这一发现。这展示了 AI co-scientist 作为辅助技术的价值,因为它能够利用数 10 年的研究成果,包括之前所有关于这一主题的开放存取文献。

局限性与展望

在技术报告中,谷歌团队也讨论了 AI co-scientist 的几个局限性和改进机会,包括增强文献综述、事实核查、与外部工具的交叉检查、自动评估技术,以及涉及更多学科专家和多样化研究目标的大规模评估。

他们也表示,AI co-scientist 代表了向 AI 辅助技术迈出的重要一步,有助于科学家加速发现。其在多个科学和生物医学领域生成新颖、可验证的假设的能力,以及通过增加计算能力进行递归自我改进的能力,展示了它在加速科学家应对科学和医学重大挑战方面的潜力。

整理:陈小宇 编审:学术君

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026年清明扫墓,这4天千万别去,尤其最后一天关乎健康!

2026年清明扫墓,这4天千万别去,尤其最后一天关乎健康!

老特有话说
2026-03-21 13:39:52
“惨案”:伊朗命中以色列核工业城,造成200多人伤亡!

“惨案”:伊朗命中以色列核工业城,造成200多人伤亡!

胜研集
2026-03-22 08:09:41
章子怡被金主锁在岛上,放出克隆人!?

章子怡被金主锁在岛上,放出克隆人!?

八卦疯叔
2026-03-22 09:30:09
彻底撕破脸!胖东来鸡蛋检测报告被曝光,王海测评发视频称要起诉

彻底撕破脸!胖东来鸡蛋检测报告被曝光,王海测评发视频称要起诉

寒士之言本尊
2026-03-21 18:25:20
心酸!深圳大厂程序员失业一年,月薪从5万降到1.5万,还没人要!

心酸!深圳大厂程序员失业一年,月薪从5万降到1.5万,还没人要!

川渝视觉
2026-03-22 22:35:14
输完巴萨输德比,希勒:纽卡又一次可悲、软弱、懒散、无力

输完巴萨输德比,希勒:纽卡又一次可悲、软弱、懒散、无力

懂球帝
2026-03-23 02:38:27
0-0爆冷,英超第15逼平英超第7,利兹联2轮不败,保级希望大增

0-0爆冷,英超第15逼平英超第7,利兹联2轮不败,保级希望大增

凌空倒钩
2026-03-22 06:31:19
以色列迪莫纳被伊朗导弹“直接击中” 附近有敏感核设施

以色列迪莫纳被伊朗导弹“直接击中” 附近有敏感核设施

新华社
2026-03-22 02:48:03
外媒:丹麦已准备好在格陵兰岛与美军作战

外媒:丹麦已准备好在格陵兰岛与美军作战

参考消息
2026-03-20 21:41:08
“梅姨”引发的家破人亡:一名被拐儿童的父亲坠车自杀,认亲后孩子却将母亲拉黑

“梅姨”引发的家破人亡:一名被拐儿童的父亲坠车自杀,认亲后孩子却将母亲拉黑

极目新闻
2026-03-21 15:25:29
全体注意,最新预测来了!明天周一A股大概率会这样走!

全体注意,最新预测来了!明天周一A股大概率会这样走!

一担金
2026-03-22 14:54:20
注意,特斯拉 Model Y 又要迎来改款!

注意,特斯拉 Model Y 又要迎来改款!

XCiOS俱乐部
2026-03-22 18:34:49
后续!壶口瀑布事件:景区已上门道歉,内部在查投诉人,网友辣评

后续!壶口瀑布事件:景区已上门道歉,内部在查投诉人,网友辣评

奇思妙想草叶君
2026-03-21 20:56:23
首尔地铁贴满辛弃疾诗词,中国人看完破防:这才是文化该有的样子

首尔地铁贴满辛弃疾诗词,中国人看完破防:这才是文化该有的样子

行者聊官
2026-03-21 14:47:04
伊朗新任最高领袖传出死讯:真没了,还是一场更大的烟雾弹

伊朗新任最高领袖传出死讯:真没了,还是一场更大的烟雾弹

桂系007
2026-03-20 23:50:32
谢尔基秀脚法场上颠球,瓜迪奥拉看了直摇头

谢尔基秀脚法场上颠球,瓜迪奥拉看了直摇头

懂球帝
2026-03-23 02:38:27
从“仅退款”到“强制上门”:拼多多的刀,终于砍向了快递员头上

从“仅退款”到“强制上门”:拼多多的刀,终于砍向了快递员头上

颗粒度财经1
2026-03-22 20:13:29
网上举报“民政局女干部母亲名下登记有宾利车和10套房产”,女子被判道歉10天;再次发声讲述举报原因

网上举报“民政局女干部母亲名下登记有宾利车和10套房产”,女子被判道歉10天;再次发声讲述举报原因

大风新闻
2026-03-22 12:54:09
20条无法解释的玄学现象,第5条和第10条,准到让人头皮发麻!

20条无法解释的玄学现象,第5条和第10条,准到让人头皮发麻!

三农老历
2026-03-21 18:41:56
阿森纳vs曼城:哲凯赖什PK哈兰德,萨卡、哈弗茨、阿克首发

阿森纳vs曼城:哲凯赖什PK哈兰德,萨卡、哈弗茨、阿克首发

懂球帝
2026-03-22 23:26:17
2026-03-23 03:03:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

嫌台积电太慢 马斯克要把芯片产能飙升50倍

头条要闻

媒体:特朗普48小时通牒砸向伊朗 不排除美国铤而走险

头条要闻

媒体:特朗普48小时通牒砸向伊朗 不排除美国铤而走险

体育要闻

46岁生日快乐!巴萨全队穿10号致敬小罗

娱乐要闻

47岁“国际章”身材走样?让嘲笑她的人闭嘴

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

手机
旅游
教育
健康
公开课

手机要闻

华为蝉联榜首,苹果紧追不舍,OPPO、vivo、小米、荣耀差距不大!

旅游要闻

这么近那么美 京津冀“周末串门游”走起

教育要闻

考研也有信用分?进了这个名单没学上!

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版