网易首页 > 网易号 > 正文 申请入驻

如何判断 AI 是否具备开展科学研究的智能?|深度报道

0
分享至


图片来源:摄图网

来源:科技导报

文章来源:原文发表于《科技导报》2026年第6期科技新闻-深度报道

文:Celina Zhao

多年来,人工智能(AI)研究者梦想开发能通过提出新问题、设计实验乃至执行实验来加速科学进程的工具。近期,大语言模型(large language models,LLM)已取得若干发现,部分AI开发者宣称这使我们更接近该未来。但尚不知道如何测试AI模型是否真能开展科学研究?

为寻求答案,研究者转向基准测试:用于评估AI能力并与其他模型比较的标准化问题或任务集。但科学的复杂性使评判其科研能力尤为困难。美国伊利诺伊大学厄巴纳-香槟分校计算机科学家Hao Peng表示:“模型拥有海量知识,但它们懂得如何运用吗?”

过去1年涌现数10项面向科学的新基准测试以回答该问题,但科学家尚未就最佳方法达成共识。其中最受欢迎者之一是2026年1月28日发表于Nature的“人类终极考试”(Humanity's Last Exam,HLE)。该测试采用2500道源自“人类知识前沿”的问题考验LLM。例如其中一题询问蜂鸟籽骨支撑多少对肌腱。HLE开发者、非营利组织人工智能安全中心研究工程师Long Phan表示:“我们希望构建仅长期深耕该领域的专家才能回答的多样化数据集。”

HLE自2025年1月24日首次以预印本形式发布以来,已成为LLM的重要试金石——HLE得分现已成为AI公司彰显产品能力的常见谈资。HLE发布时,知名开发者OpenAI的o1模型以仅8.3%的得分位居榜首。2026年3月早些时候,Google宣称其最新科学推理模型Gemini 3 Deep Think创下48.4%的HLE新纪录。

但部分科学家指出,HLE诸多问题测试的是晦涩乃至琐碎的知识,而非开展有意义研究的能力。AI for Science公司Deep Principle创始人段辰儒质疑:“知晓世界上磷同素异形体有多少种颜色,如何助人实现科学发现?”

OpenAI研究者表示,他们开发了朝此方向迈进的新基准测试。2025年12月16日发布的FrontierScience借助700道化学、生物学与物理学问题,旨在识别“专家级科学推理”能力。部分问题类似数学与科学奥林匹克竞赛题目:通常基于简短场景、答案明确,OpenAI研究科学家Miles Wang称之为“纯推理努力的合理代理”。例如识别系列化学反应的产物。其他问题则基于博士科学家在实际工作中处理的复杂开放式研究问题,如推理修饰特定分子可能影响其性质的多种途径。

Wang表示,该基准测试的关键优势在于可验证性——这是公平测试的最重要特征之一。奥林匹克题目易于评分,而对于开放式研究问题,LLM因识别中间推理步骤而获分。截至目前,OpenAI自家产品GPT-5.2取得最佳FrontierScience成绩:奥林匹克题目正确率77%,研究挑战得分25%

其他研究者认为这一巨大分差颇具启示性。他们主张基准测试应聚焦直接衡量AI开展现实世界研究的能力。这正是段辰儒及其合作者与FrontierScience同期发布的“科学发现评估”(Scientific Discovery Evaluation,SDE)基准测试的指导原则。该测试不提困难但孤立的问题,而是向AI呈现源自8项进行中、数据尚未发表的真实研究项目的1125项任务,关联43种研究场景。例如要求LLM推导如何将目标分子分解为更简单、市售可得的组分。模型评估不仅基于单个答案,更基于其整合完整项目的能力——在多步骤中提出、检验并完善假设。段辰儒表示:“我们确保回答每个问题都关联真实科学发现的微小片段。”

SDE得分显示,LLM正确回答单个问题的能力并不总能转化为完整项目的稳健表现,反之亦然。段辰儒表示:“知晓宏观前进方向往往比知晓特定分子的精确性质更重要。”该基准测试还发现,来自OpenAI、Anthropic、xAI和DeepSeek等不同供应商的顶尖模型常在同一最难问题上受阻。这一模式暗示它们可能遭遇相同局限,很可能因其在相似科学数据池上训练所致。

然而SDE方法仍仅捕捉科学工作流的片段。AI for Science初创公司FutureHouse推出的生物学导向新基准测试LABBench2,旨在测试面向科学的AI能否将项目从初始构想推进至完成论文。2月发布的该测试采用近1900项任务,评估所谓“代理型www.kjdb.orgAI模型”(能独立完成多步骤任务的系统)执行文献检索、数据获取与基因序列构建等工作的能力。

目前结果喜忧参半。多数领先LLM在全文专利与实验室试验论文检索方面表现良好,但在LABBench2更复杂的任务上常遇困难,例如交叉引用多个数据库,或在密集论文中定位并解读特定图表或数据。FutureHouse商业衍生公司Edison Scientific 的Jon Laurent表示,这表明迈向真正AI科学家的进展,部分也取决于改进模型检索与导航信息的方式。

研究者强调,基准测试不仅用于记录当前赢家。更严格的基准测试还可通过为LLM及其他AI工具提供新目标来驱动创新。Laurent表示:“基准测试的目的之一是领先时代,衡量潜在能力,并推动其发展。”

在诸多领域,或不存在衡量AI是否“擅长”科学的单一标准。美国佐治亚理工学院认知神经科学与AI研究者Anna Ivanova表示:“这正是我们看到所用基准测试高度异质的原因。系统绘制数据的能力与其分析化学事实知识截然不同——尽管科学家可能两者都需要。”

鉴于科学所需技能的广泛性,AI专家认为研究界或宜依赖测试组合,每项测试针对并催化科学工作流不同环节的改进。Wang表示:“我们正迈向需要更多元化评估体系的世界。”

无论采用何种方法,被衡量的内容很可能引导改进方向。Peng表示:“要取得进展,你必须能够衡量它。

阅读最新前沿科技趋势报告,请访问21世纪关键技术研究院的“未来知识库”


未来知识库是 “21世纪关键技术研究院”建 立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告

(加入未来知识库,全部资料免费阅读和下载)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
投入千万打水漂,张庆鹏下课?公开表态,或回归山东,接替邱彪?

投入千万打水漂,张庆鹏下课?公开表态,或回归山东,接替邱彪?

萌兰聊个球
2026-04-25 10:22:55
全变味了?苏超开幕不到半月,不对劲的一幕上演,舆论风向又变了

全变味了?苏超开幕不到半月,不对劲的一幕上演,舆论风向又变了

墨印斋
2026-04-25 18:07:43
打起来了!伊朗不宣而战,白宫宣布撤侨,美航母再次出动

打起来了!伊朗不宣而战,白宫宣布撤侨,美航母再次出动

泠泠说史
2026-04-25 18:26:59
央国企倒查追责,再次升级!

央国企倒查追责,再次升级!

细说职场
2026-04-22 15:35:36
很难听,但这是实话!詹宁斯:杜兰特没有任何球队领导力!

很难听,但这是实话!詹宁斯:杜兰特没有任何球队领导力!

爱体育
2026-04-24 23:10:29
从外交部辞职后成美国间谍,潜伏中国多年,却因写的小说太真暴露

从外交部辞职后成美国间谍,潜伏中国多年,却因写的小说太真暴露

梦知谈
2026-04-25 09:02:37
明查|日本自卫队坦克炸膛涉“中国制造”?型号搞错了,且此“中国”非中国

明查|日本自卫队坦克炸膛涉“中国制造”?型号搞错了,且此“中国”非中国

澎湃新闻
2026-04-25 07:16:29
老詹29+13连创历史第一,湖人5大喜讯因祸得福!2年1100万捡大漏

老詹29+13连创历史第一,湖人5大喜讯因祸得福!2年1100万捡大漏

锅子篮球
2026-04-25 15:29:41
美方希望中国不要见死不救:中方应该承诺大量购买美国大豆

美方希望中国不要见死不救:中方应该承诺大量购买美国大豆

聚焦最新动态
2026-04-25 17:41:45
斯诺克战报:世界第2轰六连鞭,仍7-9恐爆冷!中国冠军黑球大血洗

斯诺克战报:世界第2轰六连鞭,仍7-9恐爆冷!中国冠军黑球大血洗

阿讯说天下
2026-04-25 14:23:20
互联网是有记忆的,她的黑历史一大堆啊!

互联网是有记忆的,她的黑历史一大堆啊!

BenSir本色说
2026-04-15 22:38:07
西方纷纷撤退,中国坚持死磕。为啥全世界就中国拼命搞核聚变?

西方纷纷撤退,中国坚持死磕。为啥全世界就中国拼命搞核聚变?

知识TNT
2026-04-25 09:40:10
40岁保姆:拿着雇主的高工资提供特殊服务,老公得知后和我离婚了

40岁保姆:拿着雇主的高工资提供特殊服务,老公得知后和我离婚了

孢木情感
2026-04-25 11:45:32
1979年打越南,高层其实吵翻了天?叶剑英粟裕为何反对出兵?

1979年打越南,高层其实吵翻了天?叶剑英粟裕为何反对出兵?

鹤羽说个事
2026-04-22 22:36:00
“保姆纵火案”8年后,再婚得子的林生斌现状曝光,反噬终于来了

“保姆纵火案”8年后,再婚得子的林生斌现状曝光,反噬终于来了

姩姩有娱
2025-10-10 19:01:25
1979年打越南,高层其实吵翻了天?叶剑英粟裕为何反对出兵?

1979年打越南,高层其实吵翻了天?叶剑英粟裕为何反对出兵?

勇哥读史
2026-04-21 07:52:13
以色列,突然空袭!内塔尼亚胡最新表态!国际油价大跳水

以色列,突然空袭!内塔尼亚胡最新表态!国际油价大跳水

数据宝
2026-04-25 13:17:19
俄罗斯再次革命?81岁大佬警告普京,不下狠手将重蹈1917年的覆辙

俄罗斯再次革命?81岁大佬警告普京,不下狠手将重蹈1917年的覆辙

阿天爱旅行
2026-04-25 16:58:24
莫言新书有一章叫《余华的祖先》,网友调侃是“标题党”!余华回应:我同意的,我俩没有割席而坐

莫言新书有一章叫《余华的祖先》,网友调侃是“标题党”!余华回应:我同意的,我俩没有割席而坐

鲁中晨报
2026-04-24 12:00:04
扮猪吃虎?隐忍四个月,委代总统撕下面具,率几十万大军硬刚美国

扮猪吃虎?隐忍四个月,委代总统撕下面具,率几十万大军硬刚美国

万物知识圈
2026-04-24 12:13:57
2026-04-25 18:56:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4687文章数 37452关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

男童7岁18斤被当脑瘫治多年 父母查出生病历发现大问题

头条要闻

男童7岁18斤被当脑瘫治多年 父母查出生病历发现大问题

体育要闻

火箭0-3触发百分百出局定律:本季加时赛9战8败

娱乐要闻

邓超最大的幸运,就是遇见孙俪

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

房产
手机
健康
数码
公开课

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

手机要闻

W16周排名出炉:vivo第四、小米第五,冠军还是它

干细胞如何让烧烫伤皮肤"再生"?

数码要闻

雷达感应自动开关灯,Yeelight新品来了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版