网易首页 > 网易号 > 正文 申请入驻

DeepMind用AI重构科研流程,Kaggle竞赛击败84%选手

0
分享至

近日,谷歌 DeepMind 联合 MIT、哈佛发布了一篇长达 71 页的论文,提出了一项突破性成果:他们开发了一种能帮助科学家自动生成“专家级科研实证软件”的 AI 系统。该系统结合大语言模型(LLM)与树搜索(tree search),首先通过 LLM 生成代码,再利用树搜索在巨大的解空间中系统地探索与改进,能在数小时至数天内完成人类需要数月才能完成的科研编程任务。

这一方法已在多个科学领域展现出“专家级成果”,包括生物信息学、流行病学、地理空间分析、神经科学、时间序列预测和数值分析,且往往优于现有人类顶尖方案。论文强调,AI 通过主动检索并整合外部复杂的研究思想,实现了“超人表现”,为加速科学发现提供了一条通用路径。

现代科研越来越依赖软件,从化学模型、天气模拟、流体力学建模,到社会系统预测,背后都是复杂的代码。然而开发适用于特定领域的代码通常需要长达几年繁琐的工作,且过程极其依赖研究者的直觉和经验,漫长的耗时极大限制了科学探索的效率。

研究团队将这些科学难题称为“可评分任务”(scorable tasks),定义为可通过“实证软件”(empirical software)解决的科学问题,而“实证软件”就是科研中所有为了最大化特定评估指标而设计的软件(例如对已有观测的拟合程度)。

该研究开发的 AI 系统旨在系统并且自动地生成可以解决“可评分任务”的“实证软件”,结合大语言模型与树搜索算法来更新迭代软件以提高软件的质量评分。

首先,用户提供具体的问题描述、评价指标以及相关数据,接下来 LLM 根据这些线索生成候选 Python 代码,而候选程序都会在沙盒环境中运行并得到一个质量评分。接着树搜索程序会参考每个方案的得分,不断选择哪些候选解法值得进一步改进和扩展。

研究团队提出了 PUCT(Predictor + Upper Confidence bound applied to Trees)树搜索算法,收到 AlphaZero 的上置信界(Upper Confidence Bound UCB)启发,通过平衡开发和探索来选择新的候选程序。该系统的另一大关键是能够探索并整合来自外部来源的研究想法。这些想法可能来自科学论文、教材或搜索引擎(包括 Gemini Deep Research 和 AI co-scientist 等 LLM 工具),会被注入 LLM 提示以指导代码生成。

研究团队通过 2023 年的 16 场 Kaggle 比赛来开发和完善 AI 代码变异系统,并且与排行榜上的人类参赛者进行对照校准以取得高分。

上图展示了 AI 系统在这 16 场比赛中的平均公共排行榜百分位数表现:树搜索(TS)方法的表现显著优于单次 LLM 调用,甚至优于 1000 次 LLM 调用中最好的结果。在树搜索过程中,AI 会不断发现新的策略,使得分数出现“跳跃式”提升,而这些累积的跃升最终带来了最高质量的解决方案。

实验也说明在提示中加入针对具体问题的建议,能大幅提升表现。在“TS + 专家建议”实验中,研究员向模型提供了赢得 Kaggle 比赛的常见经验性指导;在“TS + Boosted Decision Tree (BDT)”实验中,模型被要求从零开始实现一个决策树库,而不使用现成的标准包。

研究团队在六个不同的科学领域基准任务评估该方法,并且得到超过人类最新方法的表现。

在基因组学领域,这一系统在单细胞 RNA 测序(scRNA-seq)的批次效应消除任务中表现突出,研究员使用了 OpenProblems 批次整合基准来测量模型表现。面对高维且稀疏的数据,该系统不仅成功去除了混杂的批次效应,同时还保留了生物学信号。

系统共提出了 87 种全新的单细胞数据分析方法,其中 40 种都在 OpenProblems 排行榜上超越了人类专家开发的最佳模型。最具代表性的成果之一是 BBKNN (TS),它通过对现有方法 ComBat 与 BBKNN 的重新组合,实现了“理念重组”的突破,使整体表现比最佳已发表方法提升了 14%。

研究团队还交给了 AI 系统前沿的全脑神经活动预测任务,评估基准为斑马鱼全脑神经元活动预测基准(ZAPBench),目标是对超过 7 万个神经元的全脑活动进行建模和预测。实验表明,AI 系统在大多数预测范围内都优于所有基线模型,包括此前表现最佳的 Unet 视频模型;在一步预测任务中,专门设计的模型也达到了领先水平。

AI 系统进化出了能够结合丰富特征集、时间卷积、学习到的“全局脑状态”、神经元特定嵌入的模型。研究团队同时探索性地将“生物物理神经元模拟库(Jaxley)”整合进预测方案,进一步提升了模型的表现与解释力。这一探索仅是概念验证,却预示了 AI 在科学研究中不仅能拟合数据,还可整合科学原理(如生物物理模拟),为构建更可解释的模型开辟了新道路。

参考资料

https://arxiv.org/abs/2509.06503

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小毛打酱油 浙江双煞快废了!于金永该让位姚浩洋 依木兰眼神太狠

小毛打酱油 浙江双煞快废了!于金永该让位姚浩洋 依木兰眼神太狠

刀锋体育
2026-03-26 10:43:52
巴拿马籍船在华被查44艘,滞留暴涨3倍,船东日亏数十万

巴拿马籍船在华被查44艘,滞留暴涨3倍,船东日亏数十万

观察者海风
2026-03-25 23:03:11
张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

大中国
2026-03-26 13:30:16
张雪峰猝死事件发酵!网传内蒙一公司老板开会,出资全员急救培训

张雪峰猝死事件发酵!网传内蒙一公司老板开会,出资全员急救培训

火山詩话
2026-03-26 10:42:17
巴西记者:等到有扑克牌世界杯的时候,内马尔就能入选巴西队

巴西记者:等到有扑克牌世界杯的时候,内马尔就能入选巴西队

懂球帝
2026-03-26 12:27:11
杨瀚森带不动CBA队友,混音输给马刺,数据显示中国新星不用背锅

杨瀚森带不动CBA队友,混音输给马刺,数据显示中国新星不用背锅

姜大叔侃球
2026-03-26 10:42:36
巴斯夫(广东)一体化基地全面投产,黄坤明等中外嘉宾共同启动

巴斯夫(广东)一体化基地全面投产,黄坤明等中外嘉宾共同启动

广东发布
2026-03-26 10:57:43
北京今日傍晚北风渐起,周末有弱降水

北京今日傍晚北风渐起,周末有弱降水

北青网-北京青年报
2026-03-26 13:27:04
女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

情感艺术家
2026-02-26 10:48:00
美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

军机Talk
2026-03-25 17:17:57
美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

爱吃醋的猫咪
2026-03-22 22:29:08
老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

小羽叨叨叨
2026-03-26 13:24:34
清算终于开始了!一个要求,震动东京:中国要求日本限期内归还

清算终于开始了!一个要求,震动东京:中国要求日本限期内归还

壹知眠羊
2026-01-28 22:03:28
冯巩在人民日报撰文

冯巩在人民日报撰文

草莓解说体育
2026-03-26 14:13:16
逃难的林冲杀了收留他的王伦,这样的人进不了任何人的圈子

逃难的林冲杀了收留他的王伦,这样的人进不了任何人的圈子

凉湫瑾言
2026-03-23 13:29:51
戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

娱乐圈笔娱君
2026-03-25 10:46:06
养生|大便后你用几张纸?用纸量判断你的身体情况

养生|大便后你用几张纸?用纸量判断你的身体情况

A活着
2026-03-24 19:25:23
贾马尔-穆雷生涯第4次单场得分50+,掘金队史仅次于约基奇

贾马尔-穆雷生涯第4次单场得分50+,掘金队史仅次于约基奇

懂球帝
2026-03-26 13:21:12
首次全流程展示!国产无人机蜂群作战系统震撼亮相

首次全流程展示!国产无人机蜂群作战系统震撼亮相

环球网资讯
2026-03-25 14:26:17
第81轮反击来了!飞弹直击以军集结地

第81轮反击来了!飞弹直击以军集结地

星火聊天下
2026-03-26 07:27:33
2026-03-26 14:52:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16487文章数 514797关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
时尚
本地
艺术
军事航空

数码要闻

配件制造商清单泄露:2026款iPad将搭载A18芯片

2026年了,最好看的还是“这件针织”!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

艺术要闻

哪一座桥不是风景?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版