
编辑、整理丨BioArt编辑部
在今天的实验室里,你很可能会看到这样一幅景象:一位研究员一边喝着咖啡,一边和屏幕上的聊天窗口讨论着复杂的科学问题。这位不知疲倦、学识渊博的 “ 同事 ” ,正是像 ChatGPT 这样的大型语言模型(LLM)。我们对这些 AI“ 合作者 ” 寄予厚望,期待它们能加速科学发现的进程。
但这引发了一个关键问题:这些 AI 代理在提出真正原创的科学假说方面,真的能与浸淫领域数十载的人类科学家相提并论吗?它们是真正的创意伙伴,还是只是一个超级高效的图书管理员?
近日, Science Immunology 发表一个有趣的研究:
AI immunologists are here: Are they ready for prime time?为了探究这个问题, Rodriguez 及其同事设计了一场巧妙的实验,名为 “创造力游戏” ( Creation Game ),AI扮演免疫学家来接受挑战。本文将为你揭示这场实验得出的四个最令人惊讶,甚至有些反直觉的发现。
![]()
AI 是个出色的实习生,但还不是PI
实验结果首先肯定了 AI 的强大能力。在 “ 创造力游戏 ” 中,像 ChatGPT-4o 这样的顶尖模型在回顾相关文献、生成看似合理的假说,甚至建议验证实验等方面都表现 “ 出色 ” ( admirably )。它能迅速整理信息,提出有理有据的初步想法,就像一个顶尖的博士生。
然而,它的核心局限也暴露无遗。尽管AI能熟练地运用“众所周知”的知识,但在生成真正意义上的“原创材料”( original materials ),比如一个前所未有的假说或一种创新的实验程序时,它就显得力不从心了。例如,在分析固醇调节元件结合蛋白( SREBPs )时, AI 可以完美地 “ 反刍 ” 文献中已知的关于 SREBPs 在免疫中的功能,但对于解释疫苗反应中代謝調控的深層 “ 機制性見解 ” ( mechanistic insights ) —— 一個需要真正洞察力的任務 —— 它卻束手無策。
正如研究人员在论文中指出的那样:AI目前能帮你把已有的点连接起来,但还无法发现那些地图上尚未标出的新大陆。
想让 AI 更有创意?提问的方式得 “ 粗线条 ” 一些
我们都知道, LLM 对我们输入提示词( Prompt )的微小变化都极为敏感,有时多一个空格 都可能产生 “ 蝴蝶效应 ” ,导致结果大相径庭。但当目标是激发创造力时,一个反直觉的现象出现了。
这项 研究发现, AI 假说的生成存在一个 “ 新颖性 - 可验证性权衡 ” ( novelty-verifiability trade-off )。令人惊讶的是,触发更高创造力的策略,恰恰是提供更少的信息。
“ 零样本 ” 提示( Zero-shot prompts ) :当研究人员不给 AI 任何具体的例子,只是提出一个开放性问题时, AI 反而能产生更具创造力、更大胆的假说。
“ 五样本 ” 提示( Five-shot prompts ) :相反,如果给 AI 提供五个相关的上下文示例,它产生的假说虽然更 “ 接地气 ” 、更符合现有文献,但也因此失去了新颖性,创造力大打折扣。
这个发现颠覆了我们的常规认知。我们通常认为,给 AI 提供更丰富的上下文信息会让它表现得更好。然而,在追求科学创新的道路上,有时候“少即是多”。给AI留出更多“想象空间”,似乎更能激发它的创造潜能。
评估 AI 创造力的最大障碍,可能就是人类专家自己
这个发现或许最具争议性。 Rodriguez 等人在研究中特别强调了 “ 人类监督 ” ( human oversight )的局限性。当我们请领域内的专家来评估 AI 生成的假说是否 “ 有创意 ” 时,一个悖论出现了:专家的评估标准本身,可能就成了创新的绊脚石。
原因在于,专家的深厚知识和经验建立在现有的科学范式之上。因此,他们在评估时可能会不自觉地偏爱那些符合 “ 传统科学智慧 ” ( conventional scientific wisdom )的想法,而对那些跳出既定框架、看似 “ 离经叛道 ” 的创新想法给予低估或直接忽略。这就像让一位古典音乐大师去评判一场前卫的电子音乐会,他可能会因为不符合传统乐理而给出差评。这凸显了一个迫切的需求:我们需要开发一套一致的、量化的评估指标,来客观衡量 AI 的认知能力和创意的 “ 新颖性 ” 。像 “ 相对邻居密度算法 ” ( Relative Neighbor Density algorithm )这样的工具正在朝这个方向努力,它试图通过算法来识别那些处于知识网络稀疏区域的 “ 创新 ” 想法。
AI 科研的未来不是独行侠,而是 “ 机器人团队会议 ”
如果说单个 AI 的表现还不足以独当一面,那么最有前途的未来方向,似乎是组建一个 AI 团队。这种 “ 多代理 ” ( multiagent )方法,不再是让一个 AI 与人类互动,而是让多个 AI 代理(各自被赋予不同角色)相互协作、辩论,并与人类研究员共同工作。
这就像组建一个虚拟实验室团队。一个名为 “ 虚拟实验室 ” ( The Virtual Lab )的项目就是绝佳例证。在这个项目中,一个 AI 扮演首席研究员( PI ),它根据人类设定的目标,组建了一个由 AI 免疫学家、 AI 计算生物学家和 AI 机器学习专家组成的团队。在整个互动过程中,一个惊人的数据显示:超过 98% 的文字是由 LLM 代理生成的。这个 AI 团队最终设计出了 92 种纳米抗体,其中两种经真实实验证明有效。
另一个名为 “CellForge” 的多代理系统也展示了这种趋势。这些系统证明,通过模拟跨学科的团队合作, AI 能够完成从数据整理到模型构建再到结果分析的复杂科研工作流。当然,目前的局限也很明显:它们的核心任务仍然是 “ 计算性的 ” ( computational in nature ),如何与真实世界的湿实验形成反馈闭环,将是 “ 关键的下一步 ” 。
结论
所以,AI免疫学家准备好迎接黄金时代了吗?答案是:单个的AI或许还没有,但一个由AI专家、AI批评家和人类科学家组成的跨学科“AI团队”,正展现出解决复杂科学问题的巨大潜力。它们不再仅仅是知识的提取器,而开始成为知识的创造者。
随着这些 AI 团队与真实世界的实验室数据和实验反馈实现闭环,未来的问题或许不再是它们 能否 做出突破性发现,而是当它们做到时,我们又该如何自处?
https://www.science.org/doi/10.1126/sciimmunol.aea8735
制版人: 十一
学术合作组织
(*排名不分先后)
![]()
战略合作伙伴
(*排名不分先后)
![]()
![]()
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
BioArt
Med
Plants
人才招聘
近期直播推荐

点击主页推荐活动
关注更多最新活动!
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.