网易首页 > 网易号 > 正文 申请入驻

LLM自主发现发表在Nature上的科学假设?ICLR 2025 论文深度解析

0
分享至

。其中,I代表所有的(化学)科学文献。该约等式将复杂的难以建模的P( h | b)转换成了一系列难度显著降低的可以建模的小项的乘积。

编辑 | ScienceAI

人工智能的下一个前沿,不仅是语言、图像,而是科学发现本身。

近年来,人工智能(AI)已经在自然语言处理(NLP)、计算机视觉(CV)等领域取得巨大成功。但 AI 是否能够帮助科学家发现新的科学理论?

在 ICLR 2025 接收的一篇论文《MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses》提出了一个令人兴奋的问题:

大模型(LLMs)能否在仅依赖化学研究背景信息的情况下,自动发现新的、有效的化学科学假设?

这项研究发现 LLM 可以自主发现新颖(novel)且可行(valid)的科学假设,甚至可以重新发现那些已经发表在 Nature, Science 上的顶级化学科学假设。

这项研究通过划分使用的 LLM 的 pretrain data 的截止时间,与 Nature, Science 上文章的 online 时间确保这种重新发现不是由于数据污染(data contamination),而是由于 LLM 本身的能力。

这项研究不仅提供了关于科学假设形成的数学建模,还提出了 Agentic AI for scientific discovery 的 framework,让 LLM 能够自动生成并筛选科学假设,为 AI 在科学研究中的应用提供了新思路。

论文链接:https://arxiv.org/abs/2410.07076

MOOSE-Chem 研究的核心假设是:

化学研究假设h不是凭空创造的,而是由研究背景b和若干研究灵感i组合而成的。

研究团队通过认知科学、论文分析和数学建模,系统性地验证了这一假设的合理性,并建立了数学推导,形成 AI 可执行的科学发现框架。

MOOSE-Chem 核心假设的提出

(1) 认知科学的启发

创造力研究表明,创新通常来自已有知识的重新组合,这一点可以追溯到:

知识重组理论(Knowledge Recombination)(Koestler, 1964):科学发现往往源于跨领域知识的结合。

联想理论(Association Theory):创新通常通过已有概念的连接产生。

例如:

反向传播(Backpropagation)算法来源于「链式求导 + 多层神经网络」。

许多新型催化剂的发现来源于「已有材料 + 新工艺」的结合。

这些理论表明,化学研究假设很可能是由背景知识(b)+ 研究灵感(i) 组合产生的。

(2) 顶级化学论文的分析

研究团队通过利用核心假设,链式法则,和引入马尔科夫性质,得到P( h | b)的一个约等式。

最终研究团队得到

MOOSE-Chem 框架详解:AI 如何进行自动科学发现?

1. 文献检索(Literature Retrieval)——找到潜在研究灵感:

MOOSE-Chem 在这一过程中使用了大语言模型(LLMs)结合信息检索的方法,帮助 AI 从大量化学论文中筛选出可能的研究灵感。

方法:

基于 LLM 的语义检索

·研究背景 作为输入,LLM 通过语义相似性搜索(Semantic Search)在论文数据库 中找到相关研究。

·例如,如果研究背景涉及某种新型催化剂,LLM 会检索相关的催化剂研究,并提取其中的关键技术或方法。

2. 假设生成(Hypothesis Generation)——从背景和灵感构造研究假设:

有了研究灵感后,MOOSE-Chem 需要根据背景信息和灵感,构造新的科学假设。这个过程类似于科学家在头脑风暴时结合已有知识提出研究方向。

方法:

(1)基于 LLM 的 Prompt 生成

例如,如果背景涉及某种电化学反应,灵感来自某种新的催化材料,LLM 会根据新的催化材料来构造新型电化学方案。

(2)进化优化(Evolutionary Optimization)

仅靠 LLM 直接生成假设并不能保证其高质量,因此 MOOSE-Chem 进一步采用进化算法(Evolutionary Algorithm)优化假设。这一过程包含三个关键步骤:

变异(Mutation):对初始假设进行调整,例如改变催化剂的类别、调整反应条件等,以探索更多可能性。

精炼(Refinement):让 LLM 通过自我反馈机制对假设进行改进,使其更加科学合理。例如,模型可能会检查是否有足够的实验依据支持假设,或调整表达方式以提高清晰度。

重组(Recombination):从多个假设变体中筛选最佳元素,组合成最终的高质量假设。这类似于科学家在论文写作过程中不断优化研究思路的过程。

3. 假设排序(Hypothesis Ranking)——筛选最优科学假设

MOOSE-Chem 生成了多个可能的研究假设,但并非所有假设都合理。因此,MOOSE-Chem 需要对生成的假设进行评估,并筛选出最优的科学假设。

方法:

基于 GPT-4o 的评分

让 GPT-4o 评估每个假设的创新性、合理性、实验可行性。

主要实验结果

1、LLM 能够成功识别与研究背景相关但未知的启发性论文

在 3000 篇论文库中,LLM 能够找到 75% 以上的真实启发论文,即使只筛选出 4% 的论文。

结果表明,LLM 可能已经学习到了许多科学家未知的知识关联。

2、LLM 能够基于已知知识推理出高质量的新知识

采用严格背景信息和文献筛选策略后,LLM 生成的假设与真实假设的相似度较高:

28个假设的最高匹配评分(Top MS)为 4 或 5 分(满分 5 分)

其中 9 个假设的最高匹配评分达到了 5 分(几乎与真实假设一致)

说明 LLM 具备从背景+启发中推理出创新性假设的能力。

3、LLM 能够有效地对假设进行排名

采用 LLM 评分机制,高质量假设通常排名更高。

与真实论文中使用的启发数量相关性较强,即:

启发匹配越多,排名越高

匹配评分越高,排名越高

说明 LLM 在一定程度上能够筛选出更有价值的假设。

最终发现

1、MOOSE-Chem 生成的假设可以在不访问真实假设的情况下,覆盖论文的核心创新点。

在51篇论文的评测中,近 40% 的实验生成假设与真实假设高度相似。

专家评估显示,在模拟现实科学研究环境(300 篇论文库)下,MOOSE-Chem 仍能生成接近真实论文的假设。

2、多步启发和变异/重组策略有效提升了假设质量。

相比现有方法(如SciMON, MOOSE),MOOSE-Chem 在最高匹配评分(Top MS)和平均匹配评分(Average MS)上均有显著提升:

MOOSE-Chem:Top MS = 4.02, Avg MS = 2.56

MOOSE: Top MS = 2.88, Avg MS = 2.46

SciMON(NLP/Biochemical 领域):Top MS = 2.55, Avg MS = 2.28

说明进化算法(mutation & recombination)能够提升假设的创造性和合理性。

3、在实际应用中,MOOSE-Chem 可作为科研助理协助研究人员提出高质量假设。

在科学研究过程中,MOOSE-Chem 可用于自动检索启发性文献、生成研究假设,并提供初步筛选排名,减少研究人员的筛选和构思时间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人均消费过万!如今谁还在为KTV买单?老板们直呼“苦不堪言”

人均消费过万!如今谁还在为KTV买单?老板们直呼“苦不堪言”

音乐时光的娱乐
2025-12-14 00:12:34
春丽手办已经做到了这种程度,任何姿势都能摆出来了

春丽手办已经做到了这种程度,任何姿势都能摆出来了

街机时代
2025-12-22 15:00:03
交警提醒:红灯右转新规,别再凭感觉转!看错一个标志扣3分罚200

交警提醒:红灯右转新规,别再凭感觉转!看错一个标志扣3分罚200

今朝牛马
2025-12-22 22:10:53
谎话,全是谎言!南京博物院原院长徐湖平,目前已经撒了两个谎话

谎话,全是谎言!南京博物院原院长徐湖平,目前已经撒了两个谎话

林子说事
2025-12-23 12:45:26
造成毛岸英牺牲的罪魁祸首,让毛主席痛恨得罪人,他们下场如何?

造成毛岸英牺牲的罪魁祸首,让毛主席痛恨得罪人,他们下场如何?

风笛悠扬声
2025-12-04 10:08:06
特朗普:美国需要格陵兰岛不是为了关键矿产

特朗普:美国需要格陵兰岛不是为了关键矿产

财联社
2025-12-23 07:45:04
关之琳不愧是当年的女神,黑色丝袜搭配肥大西服分外妩媚妖艳!

关之琳不愧是当年的女神,黑色丝袜搭配肥大西服分外妩媚妖艳!

说不尽的人心
2025-12-23 16:21:42
50岁伺候儿媳坐月子,听到她骂我像驴,第二天我的做法绝了

50岁伺候儿媳坐月子,听到她骂我像驴,第二天我的做法绝了

木子言故事
2025-12-21 14:43:07
罪恶的柬埔寨,让中国人闻风丧胆?为什么是东南亚最可怕的国家?

罪恶的柬埔寨,让中国人闻风丧胆?为什么是东南亚最可怕的国家?

历史人文2
2025-12-14 09:28:10
穷追猛打,泰国局势再生变

穷追猛打,泰国局势再生变

寰宇大观察
2025-12-22 18:20:39
只有一场!阿森纳冲击队史第三冠,如能晋级,一个月挑战四大豪门

只有一场!阿森纳冲击队史第三冠,如能晋级,一个月挑战四大豪门

嗨皮看球
2025-12-23 16:09:48
1970年,谢富治阻挠少将升官,主席掐灭烟头问了一句,全场没人敢接茬

1970年,谢富治阻挠少将升官,主席掐灭烟头问了一句,全场没人敢接茬

史海残云
2025-12-11 16:19:09
如果中国拦截美国售台武器,天会塌下来吗?会,但那是美台的天!

如果中国拦截美国售台武器,天会塌下来吗?会,但那是美台的天!

陈博世财经
2025-12-22 10:54:48
勇士赢球后,科尔确认了一事,格林解释原因,库里巧妙回应

勇士赢球后,科尔确认了一事,格林解释原因,库里巧妙回应

体坛大辣椒
2025-12-23 15:22:14
原知名演员高虎被曝送外卖!已经息影9年,曾坦言不会复出

原知名演员高虎被曝送外卖!已经息影9年,曾坦言不会复出

史纪文谭
2025-04-09 17:27:20
乌方发声:击中两架俄罗斯苏-27战机

乌方发声:击中两架俄罗斯苏-27战机

环球时报国际
2025-12-22 16:26:37
吉林省委:领导干部要用90%以上的时间调查研究,了解真情况、找准真问题、真解决问题

吉林省委:领导干部要用90%以上的时间调查研究,了解真情况、找准真问题、真解决问题

新京报政事儿
2025-12-23 14:17:40
沪指“惊险”五连涨!但今天盘中这些细节,千万别忽视

沪指“惊险”五连涨!但今天盘中这些细节,千万别忽视

每经牛眼
2025-12-23 15:26:57
随着戈贝尔的加入,现役共有5人生涯突破10000篮板!

随着戈贝尔的加入,现役共有5人生涯突破10000篮板!

田先生篮球
2025-12-22 16:50:22
中日开战概率到底有多大?答案震撼:日本敢开第一枪,就是结局!

中日开战概率到底有多大?答案震撼:日本敢开第一枪,就是结局!

健身狂人
2025-12-08 09:58:05
2025-12-23 17:11:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1188文章数 222关注度
往期回顾 全部

科技要闻

惨烈90分钟!快手惊魂:遭遇最强黑产攻击

头条要闻

媒体:对一度没国际赛可踢的国足 "亚国联"是雪中送炭

头条要闻

媒体:对一度没国际赛可踢的国足 "亚国联"是雪中送炭

体育要闻

杨瀚森连续5场DNP!开拓者遭活塞双杀

娱乐要闻

阿信发声报平安,晒演唱会向F3索吻画面

财经要闻

祥源系百亿产品爆雷 浙金中心18人被拘

汽车要闻

四款新车集中发布 星途正式走进3.0时代

态度原创

游戏
数码
本地
亲子
公开课

《神界》系列老牌配音演员盛赞新作预告 暗示期待回归

数码要闻

LG将在CES 2026亮相全球首款RGB条纹像素4K 240Hz OLED面板

本地新闻

云游安徽|宣城何以动人心,百年塔影一城徽韵

亲子要闻

莎莎这孩子是真的懂事。脚扭伤之后

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版