案西储大学重磅突破：让AI成为科学发现的"惊喜猎人"|实验|探险家|人工智能

分享至

随着人工智能技术的飞速发展，我们已经习惯了AI能够准确回答我们的问题。但是，你有没有想过，AI能不能像伟大的科学家一样，在知识的海洋中发现那些意想不到的宝藏呢？最近，美国凯斯西储大学的研究团队带来了一个令人兴奋的答案。这项由王梦莹、马晨辉、焦傲等多位研究者共同完成的研究，于2025年11月发表在权威学术期刊上（论文编号：arXiv:2511.12472v1），首次尝试让大型语言模型具备在科学研究中发现"意外惊喜"的能力。

要理解这项研究的重要性，我们不妨把科学发现比作寻宝游戏。传统的科学研究就像是拿着详细的寻宝图去挖掘已知的宝藏位置——虽然效率很高，但很难找到新的惊喜。而真正改变世界的科学突破，往往来自那些意外的发现，就像青霉素的发现源于一次实验室的"意外污染"，或者X射线的发现来自一个看似失败的实验。研究团队把这种"意外而有价值的发现"称为"serendipity"，中文可以理解为"偶然发现"或"意外收获"。

研究团队选择了药物研发这个极具挑战性的领域作为试验场。药物研发就像是在一个巨大的迷宫中寻找治疗疾病的钥匙，而"药物重定向"则是指发现一把原本用来开某个门的钥匙，竟然还能开启另一扇完全不同的门。比如，原本用来治疗心脏病的药物，可能意外地对治疗癌症也有效果。这种跨领域的发现往往能带来医学上的重大突破。

一、构建AI的"惊喜发现"能力

传统的AI问答系统就像一个非常博学但缺乏想象力的图书管理员。当你问它一个问题时，它会快速准确地告诉你答案，但它很少会主动告诉你一些相关但出乎意料的有趣信息。研究团队意识到，要让AI具备发现"意外惊喜"的能力，就必须教会它如何在回答问题的同时，还能挖掘出那些看似不相关但实际上很有价值的信息。

为了实现这个目标，研究团队开发了一个叫做SerenQA的评估框架。这个框架就像是为AI设计的"惊喜发现训练营"。在这个训练营里，AI不仅要学会准确回答问题，还要学会识别和发现那些意想不到但非常有价值的信息。

研究团队巧妙地将知识图谱比作一张巨大的知识地图，上面记录着各种实体（比如药物、疾病、蛋白质）之间的关系。传统的AI查询就像是在这张地图上找到从A点到B点的最短路径，而他们要训练的AI则需要在寻路的过程中，发现一些隐藏的宝藏或者意想不到的捷径。

二、如何量化"惊喜"程度

这里面临着一个非常有趣的挑战：如何用数学的方式来衡量"惊喜"的程度呢？毕竟，什么是意外的、什么是有价值的，这些看起来都很主观。研究团队创造性地提出了一个叫做RNS的评分系统，这个名字来源于三个英文单词：Relevance（相关性）、Novelty（新颖性）和Surprise（意外性）。

我们可以把这个评分系统想象成评选"最佳惊喜礼物"的标准。一个好的惊喜礼物首先必须是相关的——你不会给一个素食主义者送烤肉工具；其次必须是新颖的——不是那种随处可见的普通礼物；最后必须是意外的——收礼物的人绝对想不到会收到这样的礼物，但收到后会觉得"哇，这真是太棒了"。

具体到药物研发的例子，研究团队举了一个生动的案例。假设我们要寻找治疗严重急性疼痛的药物。传统的答案可能是大家都熟知的阿片类药物，比如羟考酮，这种药物虽然有效但并不意外。而如果AI能够发现Journavx这样的药物——它是第一个非阿片类的急性疼痛治疗药物，通过完全不同的机制发挥作用——这就是一个真正的"惊喜发现"。这种发现既相关（确实能治疗疼痛），又新颖（采用了全新的治疗机制），还很意外（谁能想到还有这样的替代方案）。

为了计算RNS分数，研究团队借用了信息论的一些概念。他们把知识图谱转换成一个概率矩阵，就像是把整个知识网络变成一个巨大的概率游戏。在这个游戏中，每个知识点出现的可能性都有一个数值，而那些概率很低但价值很高的组合，就是我们要寻找的"惊喜"。

三、建立专门的测试数据集

要训练和测试AI的"惊喜发现"能力，研究团队需要一个专门的数据集。他们选择了临床知识图谱（Clinical Knowledge Graph）作为基础，这个图谱包含了超过1500万个生物医学实体和2亿多条关系，涵盖了药物、基因、疾病、蛋白质等各种医学概念之间的复杂关系。

研究团队精心设计了1529个问题，每个问题都像是一个小谜题，需要AI在知识网络中进行不同程度的"探险"。有些问题只需要一步就能找到答案，就像在房间里找一把椅子；有些问题需要两步或三步的推理，就像需要先找到钥匙，再用钥匙开门，最后在柜子里找到想要的东西；还有一些问题需要找到多个条件的交集，就像需要同时满足多个条件才能解开谜题。

更重要的是，研究团队为每个问题都准备了两套答案：一套是"标准答案"，就是那些显而易见、众所周知的正确答案；另一套是"惊喜答案"，就是那些同样正确但出人意料的答案。为了确保这些"惊喜答案"确实有价值，研究团队邀请了包括医生、药物科学家在内的6位专家进行评估和标注。

研究团队还创新性地提出了三种不同的划分策略来生成"惊喜答案"。第一种是让多个先进的AI模型投票选出它们认为最有意思的答案；第二种是让人类专家根据他们的经验和直觉来挑选；第三种是使用他们开发的RNS评分系统来自动筛选。通过比较这三种方法的结果，研究团队可以验证他们的评估框架是否合理。

四、三阶段评估管道

为了全面评估AI的"惊喜发现"能力，研究团队设计了一个三阶段的评估流程，就像是为AI设计的三关考试。

第一关是"知识检索"考试。在这一关中，AI需要根据自然语言问题，准确地从知识图谱中找到相关的实体和关系。这就像是在一个巨大的图书馆中，根据读者的描述找到他们需要的书籍。这一关主要测试AI的基础理解和检索能力。

第二关是"子图推理"考试。找到了相关信息后，AI需要能够理解这些信息之间的关系，并用自然语言清晰地总结出来。这就像是读懂了找到的书籍内容，还要能够向别人清楚地解释书中的主要观点。这一关测试的是AI的理解和表达能力。

第三关是"惊喜探索"考试，这是最具挑战性的一关。AI需要从已知的答案出发，在知识网络中进行主动探索，寻找那些相关但出人意料的新发现。研究团队使用了一种叫做"束搜索"的技术，让AI像探险家一样，在知识的迷宫中寻找隐藏的宝藏。这个过程中，AI需要在多条可能的路径中做出选择，既要保证发现的内容确实相关，又要确保具有足够的新颖性和意外性。

五、实验结果揭示的现实

研究团队测试了13个不同规模的AI模型，从参数量只有15亿的小模型到拥有数千亿参数的顶尖大模型。实验结果既令人鼓舞又发人深省。

在第一关"知识检索"考试中，表现最好的大模型在简单的单步查询中能够达到78%左右的准确率，这已经相当不错了。但是，当问题变得复杂，需要多步推理时，所有模型的表现都急剧下降。对于需要三步以上推理的复杂问题，即使是最先进的模型，准确率也下降到了10%以下。这就像是学生们在做简单的加法题时表现很好，但遇到复杂的应用题就束手无策了。

第二关"子图推理"的结果更加有趣。研究团队发现了一个出人意料的现象：有些模型虽然在事实准确性方面表现一般，但在发现"惊喜路径"方面却表现出色。这就像是有些学生虽然基础知识掌握得不够扎实，但创造力和想象力却很丰富。相反，那些在基础知识方面表现优秀的大模型，在寻找意外发现方面反而显得保守。

最具挑战性的第三关"惊喜探索"结果最为发人深省。几乎所有的模型在这一关的表现都不尽如人意。即使是最先进的模型，在发现真正有价值的"惊喜"方面的成功率也非常低。这说明，让AI具备真正的创新发现能力，还有很长的路要走。

研究团队还发现了一个有趣的现象：没有任何一个模型在所有三个方面都表现卓越。有些模型擅长检索，有些模型善于推理，还有些模型在探索方面有所建树，但很难找到一个"全能选手"。这提示我们，未来可能需要采用多模型协作的方式，就像组建一个专业团队一样，让每个成员发挥自己的长处。

六、对未来科学发现的启示

这项研究的意义远远超出了技术层面。它首次系统性地探讨了如何让AI具备科学发现中最珍贵的能力——发现意外惊喜的能力。虽然目前的结果显示我们还有很长的路要走，但这项研究为未来指明了方向。

从药物研发的角度来看，如果AI真的能够可靠地发现那些意想不到的药物-疾病关联，将会极大地加速新药开发的进程。当前，开发一个新药平均需要10-15年的时间和数十亿美元的投资，而且失败率很高。如果AI能够在早期阶段就发现一些非常规但有效的治疗方案，不仅能节省大量的时间和金钱，还可能拯救无数生命。

更广泛地说，这项研究开启了"AI辅助科学发现"的新篇章。在生物学、化学、物理学等各个领域，都存在着大量等待发现的"隐藏联系"。如果我们能够训练AI系统自主地发现这些联系，科学研究的模式可能会发生根本性的改变。

研究团队也很诚实地承认了当前方法的局限性。他们指出，真正的科学发现不仅需要在已有知识中找到新的联系，还需要能够质疑现有的假设，提出全新的理论框架。这种更高层次的创新能力，可能需要对AI系统进行更根本性的改进。

此外，研究团队还提醒我们注意伦理问题。在医学领域，AI发现的"惊喜"联系需要经过严格的临床验证才能应用到实际治疗中。不能仅仅因为AI认为某种关联很"有趣"，就贸然进行人体试验。科学的严谨性和创新的大胆性之间，需要找到合适的平衡点。

这项研究也为我们重新思考人工智能的发展方向提供了新的视角。过去，我们更多地关注AI的准确性和效率，但这项研究告诉我们，AI的创造性和发现能力可能同样重要。未来的AI系统不应该只是知识的搬运工，而应该成为知识的创造者和发现者。

说到底，这项来自凯斯西储大学的研究为我们展现了一个令人兴奋的未来图景：AI不再仅仅是回答我们问题的工具，而可能成为我们在知识海洋中探险的伙伴，帮助我们发现那些意想不到的宝藏。虽然这个愿景的实现还需要时间，但第一步已经迈出，而且迈得很扎实。对于任何对科学发现和人工智能未来感兴趣的读者，都值得关注这个领域的后续发展。如有兴趣深入了解这项研究的技术细节，可以通过论文编号arXiv:2511.12472v1查询完整的研究报告。

Q&A

Q1：SerenQA框架具体是如何让AI发现意外惊喜的？

A：SerenQA框架通过三个步骤训练AI：首先让AI在知识图谱中准确检索信息，然后训练它理解和总结复杂关系，最后使用束搜索技术让AI主动探索那些相关但出人意料的发现。就像训练探险家不仅要找到目标，还要发现路上的隐藏宝藏。

Q2：RNS评分系统如何量化"惊喜"程度？

A：RNS评分系统通过三个维度评估：相关性（发现的内容是否与问题相关）、新颖性（是否提供了新信息）和意外性（是否超出预期）。研究团队将知识图谱转换为概率矩阵，那些概率低但价值高的组合就是高分的"惊喜发现"。

Q3：目前的AI模型在发现意外惊喜方面表现如何？

A：实验结果显示，虽然先进的AI模型在简单检索方面表现不错（准确率约78%），但在复杂推理和惊喜探索方面还有很大不足。没有任何一个模型在所有方面都表现优秀，这提示未来可能需要多模型协作的方式来实现真正的科学发现能力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.