网易首页 > 网易号 > 正文 申请入驻

一夜200万阅读,OpenAI神同步!这项测评框架让全球顶尖LLM全翻车

0
分享至


新智元报道

编辑:Aeneas

【新智元导读】这篇中国团队领衔发布的论文,已经在外网刷屏了,仅一夜阅读就达到了200万!这位MIT博士回国创业后组建的团队,拉来全球24所顶级机构,给AI如何助力科学发现来了一剂猛药。

最近,一篇由中国团队领衔全球24所TOP高校机构发布,用于评测LLMs for Science能力高低的论文,在外网炸了!

当晚,Keras (最高效易用的深度学习框架之一)缔造者François Chollet转发论文链接,并喊出:「我们迫切需要新思路来推动人工智能走向科学创新。」


AI领域KOL Alex Prompter分享论文核心摘要后,NBA独行侠队老板Mark Cuban跟帖转发,硅谷投资人、欧洲家族办公室、体育媒体同时涌进评论区。


仅一夜,累计阅读量逼近200万。

值得一提的是,同一时间窗里,OpenAI也发布了对于AI在科学发现领域能力评测的论文《FrontierScience: Evaluating Al's Ability to Perform Scientific Research Tasks》概述,指出现有评测标准在AI for Science领域失灵。


神同步OpenAI、海外讨论出圈,究竟是什么样的一份工作成果,搅动了全球AI舆论场?

AI距离可以助力科学发现,还有多远?

前段时间,美国推出「创世纪计划」,号称要调动「自阿波罗计划以来最大规模的联邦科研资源」,目标是在十年内将美国科研的生产力和影响力翻倍。

但在人工智能估值泡沫隐现、能耗与产出比饱受质疑的当下,一面是资本的狂欢,另一面却是AI能力困于「文生图」等表层应用的尴尬;一面是各类大语言模型频繁霸榜GPQA、MMMU等题库式Benchmark的层出不穷,另一面却是现有LLMs还无法准确解析简单核磁图谱的尴尬现状。

人们不禁要问:能在题库拿高分,就能助力科学发现吗?现在的模型距离科学发现还有多远?究竟什么样的AI模型可以胜任,拓宽人类的生存边界?这些讨论,在中美AI竞争白热化的当下变得愈发浓烈。

在此背景下,由中国AI for Science领域的初创企业「深度原理Deep Principle」领衔麻省理工学院、哈佛、普林斯顿、斯坦福、剑桥、牛津等全球24所科研院校共同发布的《Evaluating LLMs in Scientific Discovery》论文,正式回答该时代之问。

论文推出了LLMs for Science首套评测体系SDE(Scientific Discovery Evaluation),从科学问题到研究项目,对GPT-5、Claude-4.5、DeepSeek-R1、Grok-4等全球主流大语言模型在生物、化学、材料、物理领域的科学研究与发现能力完成摸底。


同以往评测体系不同的是,SDE对模型能力的考量,从简单的问答式,引向了具体的「假设->实验->分析」实验场景。

研究发现,GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 平均准确率 50–70%,远低于它们在GPQA、MMMU等题库上的80–90%;在86道「SDE-Hard」难题中,最高分不足12%,共同暴露出多步推理、不确定性量化和实验-理论闭环的短板。

更值得警惕的是,模型规模与推理能力的提升已呈现明显的 「边际效益递减」。

GPT-5相较于前一代模型,参数规模和推理算力显著增加,但在SDE基准的四大科学领域中,平均准确率仅提升3%-5%,部分场景(如NMR结构解析)甚至出现性能下滑。

换句话说,当前大语言模型在推动科学发现方面的表现,还不如一个普通的本科生。

能领衔24所顶尖科研院校发布

背后团队是谁?

《Evaluating LLMs in Scientific Discovery》论文通讯作者段辰儒,是「深度原理Deep Principle」创始人兼CTO。

早在2021年,在MIT攻读化学博士期间,他就已在图灵奖得主Yoshua Bengio的支持下,发起了AI for Science社区的建立,并在NeurIPS上举办AI for Science workshop。

2024年初,他与MIT物理化学博士贾皓钧回国,共同创立「深度原理Deep Principle」。贾皓钧任CEO,段辰儒任CTO,两人虽为95后,但已在全球AI for Science创业领域小有名气。

创业一年半以来,其已获得线性资本、高瓴创投、蚂蚁集团等多家知名机构的投资,且与晶泰科技、深势科技等AI for Science领域的知名企业建立战略合作关系。

「深度原理Deep Principle」从创立之初,就带着全球AIfor Science头部研究者们的期待。目前「深度原理Deep Principle」已深入全球材料研发中的第一线,将生成式人工智能同量子化学结合起来,致力于推动材料发现等领域进入新纪元。

在过去的一年中,他们在Nature大子刊和JACS等顶级期刊上不断扔出重磅成果,宣告着他们的技术领先和开放交流的「95后创业公司」心态。

从开拓扩散生成模型(Diffusion Models)在化学反应的生成,证明「不止要生成材料,更需要生成材料的合成路径」,到机器学习势(Machine Learning Potentials, MLPs)和扩散生成模型的直接对比,证明传统的机器学习势不是「万能」的,再到现在组织各大顶级学者和高校推出SDE,证明传统一问一答的Benchmark不能带领我们走向科学超级智能,精准切入AI for Science领域的核心冲突。

但同时,对于所有的AI4S公司而言,在商业真金白银的检验中,AI能否真正解决新产品研发问题、满足客户期待,是日复一日必须面对的拷问。

随着与行业头部客户的商业化合作落地,「深度原理Deep Principle」的数据库中已经汇聚了来源于客户与自己实验室、大量来自第一线的真实工业研发场景数据和模型应用经验。

学术圈的深耕与在AI for Science商业化第一线的积累,让「深度原理Deep Principle」在提出要构建一把新尺子评测LLMs for Science能力时,一呼百应,摇来了23家全球TOP科学发现机构的50余位科学家,成立了制定SDE的「梦之队」。

这其中,不乏活跃在LLM领域的大牛学者们,比如:

  • 孙欢(Huan Sun),MMMU发起人,俄亥俄州立教授

  • 杜沅岂(Yuanqi Du),康奈尔博士,AI4Science 社区「运营大管家」

  • 王梦迪,普林斯顿最年轻教授,AI+Bio Safety先驱者

  • Philippe Schwaller,IBM RXN之父,EPFL教授

而「深度原理Deep Principle」前期积累的科学发现场景,成为了后来SDE评测体系的前身。

在经历近9个月的跨高校跨学科跨时区的协作后,《Evaluating LLMs in Scientific Discovery》论文正式发布,通讯单位赫然写着:深度原理,杭州,中国。


自此,汇聚着全球顶级科学发现机构的集体智慧,来自中国的创业团队「深度原理Deep Principle」,和大洋彼岸的OpenAI,同时站在了向AI for Science——这一人类通往终极AGI顶峰攀登的起跑线。

或许千百年后,当人类回望AGI时代,在21世纪的四分之一结束的当口,这场由中美团队共同呼应的,对于AI for Science的严肃讨论,把LLMs在各类问答式榜单上的内卷,向真正科学发现的星辰大海推近了一步。

「深度原理Deep Principle」与20多所机构的50多位合作者的研究证明了,目前LLM的发展路径并不能「顺便攻克」科学发现。

这条通往科学超级智能之路,需要更多有识之士共同并肩而行。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被戴笠派往延安潜伏的沈之岳,在与毛主席接触时递上一支烟,这一细节让毛主席迅速警觉,直言 “此人有问题”

被戴笠派往延安潜伏的沈之岳,在与毛主席接触时递上一支烟,这一细节让毛主席迅速警觉,直言 “此人有问题”

史海孤雁
2026-01-01 23:25:09
山东“富到漏油”的10个县级市,龙口第2,邹城第4,平度不敌滕州

山东“富到漏油”的10个县级市,龙口第2,邹城第4,平度不敌滕州

牛锅巴小钒
2026-01-16 12:35:50
要动手了?以色列官员爆猛料,美国或将在24小时内对伊朗动武

要动手了?以色列官员爆猛料,美国或将在24小时内对伊朗动武

老寓杂谈
2026-01-16 15:23:22
长得丑、演戏烂,爹妈“强捧不红”的4位星二代,注定走不远

长得丑、演戏烂,爹妈“强捧不红”的4位星二代,注定走不远

瓜汁橘长Dr
2025-12-27 14:52:48
人民日报批自媒体摆拍造假

人民日报批自媒体摆拍造假

大象新闻
2026-01-16 11:49:03
李湘究竟怎么了?账号被封了,富养的王诗龄以后要穷养了

李湘究竟怎么了?账号被封了,富养的王诗龄以后要穷养了

狸花小咪
2026-01-16 16:08:15
日式斩杀线:福冈单亲妈妈带着2个孩子上吊自杀,背后到底发生了什么?

日式斩杀线:福冈单亲妈妈带着2个孩子上吊自杀,背后到底发生了什么?

日本物语
2026-01-15 21:07:50
《望乡》主演现状:有三位去世,栗原小卷痴恋中国男演员孤独终老

《望乡》主演现状:有三位去世,栗原小卷痴恋中国男演员孤独终老

丰谭笔录
2025-12-30 10:43:01
美国豪宅过圣诞传闻真相大白刚半个月,姜昆近况曝光,一点不意外

美国豪宅过圣诞传闻真相大白刚半个月,姜昆近况曝光,一点不意外

泪满过眼
2026-01-16 16:25:26
盖伊+拉唐试枪!对手曾败在蓉城脚下 李昊身价疯涨,申花重新报价

盖伊+拉唐试枪!对手曾败在蓉城脚下 李昊身价疯涨,申花重新报价

刀锋体育
2026-01-16 12:32:45
新款奥迪Q6上市,增香檀棕配色/取消大灯清洗,2.5T V6和2.0T动力

新款奥迪Q6上市,增香檀棕配色/取消大灯清洗,2.5T V6和2.0T动力

红涛说車
2026-01-15 16:17:14
费德勒:阿卡完成全满贯太疯狂,我们打法相似,现在不可能做教练

费德勒:阿卡完成全满贯太疯狂,我们打法相似,现在不可能做教练

网球之家
2026-01-15 22:19:24
报道称内塔尼亚胡在通话中请求特朗普推迟可能对伊朗发动的军事打击 白宫回应

报道称内塔尼亚胡在通话中请求特朗普推迟可能对伊朗发动的军事打击 白宫回应

财联社
2026-01-16 10:53:59
失算!麻黄鸡协会本想“毁掉”董宇辉,不料自己先被扒了个底朝天

失算!麻黄鸡协会本想“毁掉”董宇辉,不料自己先被扒了个底朝天

起喜电影
2026-01-16 04:56:11
聂卫平去世不到一天,小23岁妻子过往被扒,原来她才是人间清醒

聂卫平去世不到一天,小23岁妻子过往被扒,原来她才是人间清醒

天天热点见闻
2026-01-16 06:53:19
王励勤出手了!大满贯名单出炉,世界第1组合被拆开,双打大变脸

王励勤出手了!大满贯名单出炉,世界第1组合被拆开,双打大变脸

胡一舸南游y
2026-01-16 16:27:53
《流浪地球3》刘德华杀青,光头照曝光!沈腾马丽或演吴京岳父母

《流浪地球3》刘德华杀青,光头照曝光!沈腾马丽或演吴京岳父母

头号电影院
2026-01-14 14:48:57
宝玉的丫鬟袭人,月收入涨到2两1吊钱,相当于现在多少人民币?

宝玉的丫鬟袭人,月收入涨到2两1吊钱,相当于现在多少人民币?

收藏大视界
2026-01-15 18:34:21
女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

纸上的心语
2025-11-23 11:36:00
格林批评桑切斯:失误多,出球还差劲,你能为球队带来什么?

格林批评桑切斯:失误多,出球还差劲,你能为球队带来什么?

懂球帝
2026-01-16 15:39:06
2026-01-16 17:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14342文章数 66503关注度
往期回顾 全部

科技要闻

传小米传音Ovi四家手机厂下调全年出货预期

头条要闻

70后张迎春跨省履新新疆 曾是湖南湘潭史上首位女市长

头条要闻

70后张迎春跨省履新新疆 曾是湖南湘潭史上首位女市长

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

关店102家贾国龙喊被污蔑 罗永浩回应

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

房产
艺术
手机
时尚
本地

房产要闻

喜封金顶 臻境初呈丨中粮·铂悦壹号3#楼封顶大吉!

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

手机要闻

小米、OPPO、vivo、传音四家手机厂商下调全年出货预期

年度最扎心电影,看得中年男女坐立难安

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

无障碍浏览 进入关怀版