网易首页 > 网易号 > 正文 申请入驻

AI假说,为何终究逊人一筹? | 深度报道

0
分享至


原文发表于 《科技导报》2025年第17期科技新闻-深度报道

人工智能生成假说在检验中仍逊于人类


人工智能和人类比拼假说的可靠性(图片来源:

Science

2025 年 5 月,美国旧金山非营利初创机构 FutureHouse 的科研团队宣布,他们发现了一种具有治疗视力丧失潜力的候选药物。但他们却不能独揽此功,因为从文献检索、假说构建到数据分析的诸多科研环节,均由团队自主研发的人工智能(AI)完成。

从计算机科学到化学领域,AI正在全球范围内加速推动科研事业发展,部分原因在于它把一种曾被视为人类独有的创造自动化了:生成假说。如今,机器能在瞬息间完成对指数级增长的文献库的智能扫描,精准识别研究空白,揭示那些可能被科学家忽略的具有突破潜力的研究方向。

但这些AI生成的假说质量如何?一项大规模的新研究发现,当研究人员将AI生成的假说置于实际检验并交由人类评估者比对结果时,其表现仍不及人类提出的假说。但两者差距并不显著,且可能不会持续太久。

一篇 2025 年 6 月发表于 arX-iv 预印本服务器的实验论文指出,AI系统有时会过度修饰假说,夸大其潜在重要性。该研究的第一作者、斯坦福大学计算机科学博士生 Chenglei Si 表示,研究同时表明AI在评估其自主生成假说的测试可行性方面仍不及人类。

该研究既赢得了广泛赞誉,也引发了学界的审慎考量,部分原因在于原创性评判本就极具挑战。华盛顿大学数据科学家 Jevin West 指出:“创新性始终是科研评估的难点,也是同行评审中最艰巨的任务之一。”

本研究以AI自身为研究对象,聚焦支撑大语言模型(LLM)的自然语言处理(NLP)技术。研究人员利用 Anthropic 公司开发的大语言模型 Claude 3.5 Sonnet,基于对 Semantic Scholar 数据库中自然语言处理研究文献的分析,生成了数千个科研假说,并筛选出最具原创性的方案。

随后,他们聘请人类自然语言处理专家提出竞争性方案,同时组建计算机科学家团队对 2 组假说进行盲态评估,考察其创新性、可行性等指标。在 2024 年公布的预印本中,评估结果显示AI生成的假说获得了更高的平均分,这一令人意外的发现引发了广泛的媒体关注。

但在研究第 2 阶段出现了戏剧性反转。通过社交媒体推广、学术会议现场招募(在学术会议上穿着广告T恤)等多渠道招募后,团队组建了新的自然语言处理专家团队,对 24 个AI生成假说和 19 个人类构建假说进行实验验证。

这些实验通常聚焦算法优化大语言模型的某些性能(如语言翻译),并赋予实验人员优化研究设计(如选择更适配的数据集)的自主权。团队再次邀请独立评估人员对假说进行评判,结果显示:在十分制评分体系中,AI假说的平均得分从 5.382 暴跌至 3.406 ,而人类假说仅从 4.596 微降至 3.968


人工智能正在提出那些人类希望回答的问题(图片来源:信息化观察网)

Si 表示,该结果验证了实践检验的重要性:“如果只关注理论构想,评审者可能被某些华美辞藻迷惑。但实际检视代码执行或解读时,会发现那只是对已知技术的华丽包装或新颖表述。”(2025 年 2 月,一项针对 50 个AI假说的研究也印证了这种担忧:人类评估者认为其中 1/3 涉嫌抄袭,另有 1/3 部分借鉴前人成果;仅有 2 条假说具高创新性,没有假说实现完全创新。

非营利机构艾伦人工智能研究所首席科学家 Dan Weld 认为该研究“非常振奋人心”,但存在局限性。他指出:其一,研究仅使用单一大语言模型,基于广泛文献生成假说,而非采用多种AI工具深度挖掘权威专家的高被引研究;其二,人类并非判定创新性的理想主体,既往研究表明研究人员对同一篇计算机科学论文的评分存在显著分歧。 West 补充道,实验创新性的最佳评估方式是事后回溯,即通过多年积累的引文数据来进行判断。

Si 认为,将AI生成假说的验证流程常态化需要耗费大量时间成本。但他指出,若能让大语言模型学习历史上成功实验案例的细节,其识别创新假说的能力或将得到系统性提升

尽管存在争议,AI与人类评分的接近程度已足以令人惊叹,这在数年前甚至难以想象。Weld 表示,即便未来AI承担大部分假说构建工作、科学家转而执行无法自动化的实验环节也不足为奇。但 West 警示道:“若果真如此,科学探索中最富趣味的环节将被剥离,科学家将沦为从事‘令人麻木’的实验室工作的工具。科学本质上是人类参与的社会活动,抽离了这个特质,科学还剩下什么?”

文 /Jeffrey Brainard

译自

Science
,2025,389(6763)

《科技导报》创刊于1980年,中国科协学术会刊,主要刊登科学前沿和技术热点领域突破性的研究成果、权威性的科学评论、引领性的高端综述,发表促进经济社会发展、完善科技管理、优化科研环境、培育科学文化、促进科技创新和科技成果转化的决策咨询建议。常设栏目有院士卷首语、科技新闻、科技评论、专稿专题、综述、论文、政策建议、科技人文等。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
雷军这波“自杀式公关”,暴露了小米的流量焦虑

雷军这波“自杀式公关”,暴露了小米的流量焦虑

热点菌本君
2025-11-02 15:26:23
56岁大妈下单盲人按摩 “特殊服务”,竟称:“伸进按才管用”

56岁大妈下单盲人按摩 “特殊服务”,竟称:“伸进按才管用”

云端小院
2025-11-02 09:05:55
被求援?俄罗斯回应了

被求援?俄罗斯回应了

环球时报国际
2025-11-02 12:53:08
香港失业率创三年新高!专家:早死早超生!

香港失业率创三年新高!专家:早死早超生!

港港地
2025-11-02 15:25:41
和章泽天出席会议被抓拍,刘强东“卖萌”:从此在老婆面前没了自信!如今东哥还“不知妻美”吗?

和章泽天出席会议被抓拍,刘强东“卖萌”:从此在老婆面前没了自信!如今东哥还“不知妻美”吗?

新民周刊
2025-11-02 16:21:24
欲哭无泪!东风本田几千人的二厂倒了,如今官宣卖地,要盖成住宅

欲哭无泪!东风本田几千人的二厂倒了,如今官宣卖地,要盖成住宅

火山诗话
2025-11-02 09:56:39
影星哈里斯·福特抨击特朗普:随心所欲赚得盆满钵满,世界却走向毁灭

影星哈里斯·福特抨击特朗普:随心所欲赚得盆满钵满,世界却走向毁灭

爆角追踪
2025-11-02 10:48:56
李兰娟院士:天气渐冷,吃完他汀药后,请务必注意这6个隐患

李兰娟院士:天气渐冷,吃完他汀药后,请务必注意这6个隐患

白宸侃片
2025-11-02 06:02:22
利润暴跌99%!单季亏损79亿,昔日“中产神车”也要扛不住了?

利润暴跌99%!单季亏损79亿,昔日“中产神车”也要扛不住了?

财经八卦
2025-11-02 21:17:41
国台办回应武统后,郑丽文突然语出惊人,扬言:不放弃武力保台

国台办回应武统后,郑丽文突然语出惊人,扬言:不放弃武力保台

老范谈史
2025-11-02 19:18:15
连续三部电影票房为零,中国内地市场被《哪吒2》榨干了

连续三部电影票房为零,中国内地市场被《哪吒2》榨干了

影视高原说
2025-11-01 08:28:10
奇袭:布达洛夫亲抵波克罗夫斯克,指挥特种作战行动

奇袭:布达洛夫亲抵波克罗夫斯克,指挥特种作战行动

近距离
2025-11-02 13:12:21
震惊!李连杰贴了假皮肤?豪宅泳池光膀子自证清白,引发网友质疑

震惊!李连杰贴了假皮肤?豪宅泳池光膀子自证清白,引发网友质疑

火山诗话
2025-11-02 11:19:05
高三男生遭邻居驾车故意冲撞身亡案明日开庭,家属希望严惩肇事者

高三男生遭邻居驾车故意冲撞身亡案明日开庭,家属希望严惩肇事者

极目新闻
2025-11-02 19:07:41
在折腾人这件事上,他们一向是炉火纯青的!

在折腾人这件事上,他们一向是炉火纯青的!

胖胖说他不胖
2025-11-02 14:00:14
事发上海地铁!活的禁入!一对男女惊呆:“绑成这样还能越狱?”这份美味居然败给了安检

事发上海地铁!活的禁入!一对男女惊呆:“绑成这样还能越狱?”这份美味居然败给了安检

极目新闻
2025-11-02 20:11:35
172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

健身迷
2025-10-16 10:10:40
4-3拒爆冷!凌晨0点,王艺迪赢了:大心脏挽救赛点夺冠,王者国乒

4-3拒爆冷!凌晨0点,王艺迪赢了:大心脏挽救赛点夺冠,王者国乒

大秦壁虎白话体育
2025-11-03 00:07:32
上官正义被派出所控制?手机被没收?就是因帮忙解救了被贩卖婴儿

上官正义被派出所控制?手机被没收?就是因帮忙解救了被贩卖婴儿

恪守原则和底线
2025-11-02 15:31:49
天塌了!一夜之间2家公司被立案,1家被ST,14万股东集体踩雷

天塌了!一夜之间2家公司被立案,1家被ST,14万股东集体踩雷

财经智多星
2025-11-01 08:16:00
2025-11-03 04:15:00
科技导报 incentive-icons
科技导报
中国科协学术会刊
4998文章数 8325关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

时尚
手机
教育
房产
旅游

最近很火的发型,原来这么简单!

手机要闻

华为Mate80风扇版确认:五款机型同台竞技,18号见!

教育要闻

学龄前的孩子真的不要教,榜样的力量

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

旅游要闻

这道金黄的绝美秋景里藏着古韵京华

无障碍浏览 进入关怀版