网易首页 > 网易号 > 正文 申请入驻

中国团队携手24所顶尖高校,一晚炸裂全球AI界!

0
分享至

引言|一场由中国主导的“学术核爆”

2025年12月18日,一篇名为《Evaluating LLMs in Scientific Discovery》的论文横空出世——由杭州AI for Science初创公司深度原理(Deep Principle)领衔,联合哈佛、MIT、剑桥、牛津等全球24所顶尖高校共同发布。

论文上线X平台后一夜爆火,阅读量逼近200万,评论超3万条。Keras之父François Chollet疾呼:“我们迫切需要新思路!”NBA独行侠老板Mark Cuban亲自转发,硅谷风投、欧洲家族办公室、《自然》审稿人纷纷涌入讨论。

更戏剧性的是:OpenAI几乎同步发布同类研究。但结果令人震惊——GPT-5、Claude-4.5等顶级大模型在真实科研任务中的平均正确率不足12%,甚至不如一名普通本科生。

这场由中国团队点燃的“评测革命”,正在重塑全球AI竞争格局。

一、现象:外网炸锅的“中国时刻”

  • 引爆点:Chollet一条推文点燃AI圈,Cuban等名人接力转发。
  • 参与方:a16z合伙人、MIT教授、欧洲资本、期刊审稿人集体围观。
  • 核心亮点:论文第一单位为“Deep Principle, Hangzhou, China”——中国初创企业首次主导全球性AI for Science评测标准。
  • 中美同频:OpenAI同期发布《FrontierScience》,但中国团队以开放共建+真实数据赢得国际话语权。
这是海外舆论第一次真正“向东看”。
二、背景:AI for Science的“皇帝新衣”高分≠高能
  • 大模型在GPQA、MMMU等题库上刷出90%+高分;
  • 但在真实科研中(如核磁共振解析),错误率超60%,不如大三学生
评测体系失灵
  • 现有benchmark本质是“开卷考试”——模型见过原题;
  • 真实科研是“闭卷探索”:需提出假设、设计实验、分析异常、修正理论。
“能在题库拿高分,就能助力科学发现吗?” ——深度原理CTO 段辰儒
美国的焦虑
  • 2025年11月,美国启动“创世纪计划”,欲十年翻倍科研生产力;
  • 但现实骨感:AI for Science融资240亿美元,商业化成功率不足5%
  • GPT-5训练碳排放≈5000辆汽车一年,实际科研贡献仅提升3.2%
三、破局:SDE评测体系——一场“反刷题”革命

深度原理推出SDE(Scientific Discovery Evaluation),直击LLM软肋:

四大维度,精准打七寸

维度

要求

LLM表现

多步推理

从现象推导机制,设计验证实验

GPT-5得分仅8.7%

不确定性量化

对预测标注置信区间

Claude-4.5错误率73%

实验-理论闭环

根据数据修正理论

91%模型拒绝承认错误

跨领域迁移

融合不同学科知识

准确率从70%骤降至<12%

验尸报告:顶尖LLM ≈ 平庸本科生

  • SDE-Hard难题中,GPT-5、Claude-4.5等平均正确率仅10%-12%
  • 人类对比:博士生35%、硕士生18%、本科生14%;
  • 更讽刺:GPT-5算力增12倍,准确率仅提升3.2%,性价比极低。
“模型记住了整个互联网,却不理解如何优雅地说‘我不知道’。” ——哈佛医学院 王梦迪教授
四、解法:中国“梦之队”的破局密码团队背景
  • 创始人段辰儒、CEO贾皓钧均为MIT化学/物理化学博士,95后;
  • 2024年初回国创业,获高瓴、线性资本、蚂蚁投资;
  • 与晶泰科技、深势科技深度合作,扎根工业一线
SDE四大创新
  1. 动态难度调节:防刷分,实时适配模型能力;
  2. 过程性评价:不仅看答案,更评推理路径;
  3. 反事实测试:故意设陷阱,检验“科学警觉性”;
  4. 开源共建:24家机构每季度更新题库,保持前沿性。
商业化闭环:评测即产品
  • 只有通过SDE认证的AI,才能接入真实材料研发项目;
  • 3家世界500强化工企业已要求供应商AI工具必须通过SDE中级认证;
  • 欧洲某材料巨头CTO:“SDE给了我们一把评估AI效果的尺子。”
五、未来:从“算力战争”到“场景战争”全球影响
  • Nature Machine Intelligence已邀稿解读SDE,2026年3月刊发;
  • a16z将SDE得分纳入AI for Science投资核心指标;
  • MIT、斯坦福宣布:2026年起博士生AI科研能力参考SDE认证;
  • 多家大模型公司转向“科学方法论嵌入”,放弃纯堆参数。
给普通人的三点启示
  1. AI不是神:在科研中仍处“学徒期”,无法替代人类创造力;
  2. 中国已上桌:从应用追随者变为规则制定者;
  3. 警惕“评测通胀”:未来要看是否连接真实场景,而非刷榜分数。
“别盯着刷榜,扎进行业一线——真实的问题,比完美的模型更有价值。” ——段辰儒
数据来源 极客公园、新智元、36氪、智源社区(2026年1月) Deep Principle技术博客 & arXiv预印本(2025年12月18日) 段辰儒MIT博士论文(2024)
互动设计
  1. 你用过AI辅助科研/学习吗?→ 评论区打:1(经常) / 2(偶尔) / 3(从没用过)
  2. 分享一次“被AI坑”的经历→ 它是否“看起来专业,实则错误百出”?
  3. 对“AI正确率不如本科生”感到意外吗?→ 是AI被高估?还是科研本就极难?
  4. 中国成规则制定者,意味着什么?→ 评测标准权 vs 模型性能,哪个更重要?
  5. 未来你会如何选择AI工具?→ 是否会关注“真实场景测试数据”?

#AI科学融合#

当评测回归真实,泡沫才能沉淀为价值。 这场由一个中国创业团队点燃的“学术核爆”,或许正是AI走向科学发现的真正起点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“接口统一”的最后一块拼图:让你彻底忘记了“充电”

“接口统一”的最后一块拼图:让你彻底忘记了“充电”

硅星人
2026-01-18 10:57:44
包男模、开赌场、当情妇,2年赚800万,看“美女赌王”的荒唐人生

包男模、开赌场、当情妇,2年赚800万,看“美女赌王”的荒唐人生

叹为观止易
2026-01-17 10:17:57
卡里克向拉爵承诺带曼联重返欧战!赢曼城秘诀曝光,弗爵为之鼓掌

卡里克向拉爵承诺带曼联重返欧战!赢曼城秘诀曝光,弗爵为之鼓掌

罗米的曼联博客
2026-01-18 09:04:23
把孩子培养太优秀,是福还是祸?宋世雄住养老院,戳中许多人软肋

把孩子培养太优秀,是福还是祸?宋世雄住养老院,戳中许多人软肋

诗意世界
2026-01-02 17:32:41
为夺格陵兰岛特朗普动手了 :向欧洲8国加10%关税,6月1日起提高至25%!

为夺格陵兰岛特朗普动手了 :向欧洲8国加10%关税,6月1日起提高至25%!

每日经济新闻
2026-01-18 12:32:22
北京地铁10号线发生意外

北京地铁10号线发生意外

美丽大北京
2026-01-18 09:10:52
杰拉德:手球判罚确实有争议,但不是阿森纳没拿到三分的原因

杰拉德:手球判罚确实有争议,但不是阿森纳没拿到三分的原因

懂球帝
2026-01-18 16:05:26
蒋家第四代长公主称,与蒋家已无来往,嫁给英王室后裔生四国混血

蒋家第四代长公主称,与蒋家已无来往,嫁给英王室后裔生四国混血

兴趣知识
2025-12-29 01:40:08
李沁刚出道时照片曝光,腿上都是淤青,看着让人好心疼

李沁刚出道时照片曝光,腿上都是淤青,看着让人好心疼

动物奇奇怪怪
2026-01-16 12:31:20
52岁王小骞为11岁女儿痛哭!早产儿患矮小症,过度减肥又患正食症

52岁王小骞为11岁女儿痛哭!早产儿患矮小症,过度减肥又患正食症

艺能八卦局
2025-12-25 04:49:17
第一个力挺丹麦的战友出现!只要美国敢出兵,立马使出2大绝招

第一个力挺丹麦的战友出现!只要美国敢出兵,立马使出2大绝招

策略述
2026-01-16 19:16:02
敢赢陈毅元帅三步棋的聂卫平,为何从不利用他的顶级人脉?

敢赢陈毅元帅三步棋的聂卫平,为何从不利用他的顶级人脉?

刘哥谈体育
2026-01-17 10:41:47
172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

健身迷
2025-10-16 10:10:40
半导体材料,重大突破!碳化硅龙头,已抢先发力

半导体材料,重大突破!碳化硅龙头,已抢先发力

数据宝
2026-01-17 17:50:23
随着萨拉赫罚丢点球+比分2-4,埃及轰然倒下,非洲杯季军浮出水面

随着萨拉赫罚丢点球+比分2-4,埃及轰然倒下,非洲杯季军浮出水面

侧身凌空斩
2026-01-18 02:17:55
1955 首次授衔,3000 老红军拟授列兵,罗荣桓上报获 5 字批

1955 首次授衔,3000 老红军拟授列兵,罗荣桓上报获 5 字批

磊子讲史
2026-01-15 14:51:27
强渡大渡河共有18人,55年全军授衔,级别最高的一位是什么军衔?

强渡大渡河共有18人,55年全军授衔,级别最高的一位是什么军衔?

史韵流转
2026-01-09 10:00:01
iPhone 18 Pro 外观设计曝光

iPhone 18 Pro 外观设计曝光

简科技
2026-01-18 09:48:07
1951年,58师全军抗命,师长:出了事脑袋给主席送去!结果怎样?

1951年,58师全军抗命,师长:出了事脑袋给主席送去!结果怎样?

史海孤雁
2026-01-05 16:35:10
单纯控球没意义!曼城真核炮轰瓜帅战术 首回合赢球法宝被抛弃

单纯控球没意义!曼城真核炮轰瓜帅战术 首回合赢球法宝被抛弃

雪狼侃体育
2026-01-18 13:43:15
2026-01-18 16:28:49
我不叫阿哏
我不叫阿哏
分享有趣、有用的故事!
196文章数 6272关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

特朗普向各国开价:"和平委员会"永久席位 10亿美元

头条要闻

特朗普向各国开价:"和平委员会"永久席位 10亿美元

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

43岁贾玲退出春晚、解散公司

财经要闻

BBA,势败如山倒

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

旅游
家居
游戏
亲子
时尚

旅游要闻

参观青岛档案馆,了解青岛历史

家居要闻

岁月柔情 现代品质轻奢

模拟器玩家狂喜?Steam主机的受众其实比想象的宽

亲子要闻

三岁前养成这些习惯,让娃赢在起跑线

伊姐周六热推:电视剧《寻雪迷踪》;电视剧《秋雪漫过的冬天》......

无障碍浏览 进入关怀版