网易首页 > 网易号 > 正文 申请入驻

DeepMind用AI重构科研流程,Kaggle竞赛击败84%选手

0
分享至

近日,谷歌 DeepMind 联合 MIT、哈佛发布了一篇长达 71 页的论文,提出了一项突破性成果:他们开发了一种能帮助科学家自动生成“专家级科研实证软件”的 AI 系统。该系统结合大语言模型(LLM)与树搜索(tree search),首先通过 LLM 生成代码,再利用树搜索在巨大的解空间中系统地探索与改进,能在数小时至数天内完成人类需要数月才能完成的科研编程任务。

这一方法已在多个科学领域展现出“专家级成果”,包括生物信息学、流行病学、地理空间分析、神经科学、时间序列预测和数值分析,且往往优于现有人类顶尖方案。论文强调,AI 通过主动检索并整合外部复杂的研究思想,实现了“超人表现”,为加速科学发现提供了一条通用路径。


图|相关论文(来源:arXiv)

现代科研越来越依赖软件,从化学模型、天气模拟、流体力学建模,到社会系统预测,背后都是复杂的代码。然而开发适用于特定领域的代码通常需要长达几年繁琐的工作,且过程极其依赖研究者的直觉和经验,漫长的耗时极大限制了科学探索的效率。

研究团队将这些科学难题称为“可评分任务”(scorable tasks),定义为可通过“实证软件”(empirical software)解决的科学问题,而“实证软件”就是科研中所有为了最大化特定评估指标而设计的软件(例如对已有观测的拟合程度)。

该研究开发的 AI 系统旨在系统并且自动地生成可以解决“可评分任务”的“实证软件”,结合大语言模型与树搜索算法来更新迭代软件以提高软件的质量评分。


图|LLM 与树搜索自动生成科研软件的流程示意图(来源:arXiv)

首先,用户提供具体的问题描述、评价指标以及相关数据,接下来 LLM 根据这些线索生成候选 Python 代码,而候选程序都会在沙盒环境中运行并得到一个质量评分。接着树搜索程序会参考每个方案的得分,不断选择哪些候选解法值得进一步改进和扩展。

研究团队提出了 PUCT(Predictor + Upper Confidence bound applied to Trees)树搜索算法,收到 AlphaZero 的上置信界(Upper Confidence Bound UCB)启发,通过平衡开发和探索来选择新的候选程序。该系统的另一大关键是能够探索并整合来自外部来源的研究想法。这些想法可能来自科学论文、教材或搜索引擎(包括 Gemini Deep Research 和 AI co-scientist 等 LLM 工具),会被注入 LLM 提示以指导代码生成。

研究团队通过 2023 年的 16 场 Kaggle 比赛来开发和完善 AI 代码变异系统,并且与排行榜上的人类参赛者进行对照校准以取得高分。


图|Kaggle 实验结果(来源:arXiv)

上图展示了 AI 系统在这 16 场比赛中的平均公共排行榜百分位数表现:树搜索(TS)方法的表现显著优于单次 LLM 调用,甚至优于 1000 次 LLM 调用中最好的结果。在树搜索过程中,AI 会不断发现新的策略,使得分数出现“跳跃式”提升,而这些累积的跃升最终带来了最高质量的解决方案。

实验也说明在提示中加入针对具体问题的建议,能大幅提升表现。在“TS + 专家建议”实验中,研究员向模型提供了赢得 Kaggle 比赛的常见经验性指导;在“TS + Boosted Decision Tree (BDT)”实验中,模型被要求从零开始实现一个决策树库,而不使用现成的标准包。


图|单细胞批次整合过程示意图(来源:arXiv)

研究团队在六个不同的科学领域基准任务评估该方法,并且得到超过人类最新方法的表现。

在基因组学领域,这一系统在单细胞 RNA 测序(scRNA-seq)的批次效应消除任务中表现突出,研究员使用了 OpenProblems 批次整合基准来测量模型表现。面对高维且稀疏的数据,该系统不仅成功去除了混杂的批次效应,同时还保留了生物学信号。

系统共提出了 87 种全新的单细胞数据分析方法,其中 40 种都在 OpenProblems 排行榜上超越了人类专家开发的最佳模型。最具代表性的成果之一是 BBKNN (TS),它通过对现有方法 ComBat 与 BBKNN 的重新组合,实现了“理念重组”的突破,使整体表现比最佳已发表方法提升了 14%。


(来源:arXiv)

研究团队还交给了 AI 系统前沿的全脑神经活动预测任务,评估基准为斑马鱼全脑神经元活动预测基准(ZAPBench),目标是对超过 7 万个神经元的全脑活动进行建模和预测。实验表明,AI 系统在大多数预测范围内都优于所有基线模型,包括此前表现最佳的 Unet 视频模型;在一步预测任务中,专门设计的模型也达到了领先水平。

AI 系统进化出了能够结合丰富特征集、时间卷积、学习到的“全局脑状态”、神经元特定嵌入的模型。研究团队同时探索性地将“生物物理神经元模拟库(Jaxley)”整合进预测方案,进一步提升了模型的表现与解释力。这一探索仅是概念验证,却预示了 AI 在科学研究中不仅能拟合数据,还可整合科学原理(如生物物理模拟),为构建更可解释的模型开辟了新道路。

参考资料

https://arxiv.org/abs/2509.06503

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
解放军目前拥有13个新编集团军,一个集团军到底有多少兵力?

解放军目前拥有13个新编集团军,一个集团军到底有多少兵力?

浩舞默画
2025-09-09 08:43:16
特朗普连开3枪,公开否定台湾属于中国?国民党递出一句决绝的话

特朗普连开3枪,公开否定台湾属于中国?国民党递出一句决绝的话

墨兰史书
2025-09-15 07:05:10
好莱坞巨星罗伯特·雷德福在睡梦中去世 享年89岁 众星纷纷悼念

好莱坞巨星罗伯特·雷德福在睡梦中去世 享年89岁 众星纷纷悼念

Lee奇奥观影
2025-09-17 06:43:19
西贝回应“顾客在店内用公筷喂狗”,承认疏忽:涉事顾客使用过的餐具已全部丢弃,店内进行了全面消杀

西贝回应“顾客在店内用公筷喂狗”,承认疏忽:涉事顾客使用过的餐具已全部丢弃,店内进行了全面消杀

鲁中晨报
2025-09-17 10:39:24
村子里发生的那些荒唐事,每一件都炸裂你的三观

村子里发生的那些荒唐事,每一件都炸裂你的三观

特约前排观众
2025-06-11 00:15:02
一天两包烟顿顿八两酒,坚决不听医生劝阻的李琦,如今竟然大变样

一天两包烟顿顿八两酒,坚决不听医生劝阻的李琦,如今竟然大变样

九分看世界
2025-09-07 07:36:12
怎么看韩国海警李宰硕离世与志愿军烈士遗骸回国?

怎么看韩国海警李宰硕离世与志愿军烈士遗骸回国?

新民周刊
2025-09-17 09:06:33
追觅造车:比特斯拉还特斯拉,比马斯克还马斯克

追觅造车:比特斯拉还特斯拉,比马斯克还马斯克

燃擎频道
2025-09-15 22:58:08
石平家庭状况曝光!父母以他为耻,俩妻子都离婚,妹妹公开骂他

石平家庭状况曝光!父母以他为耻,俩妻子都离婚,妹妹公开骂他

谈史论天地
2025-09-12 16:24:31
26岁男按摩师揭秘:大多女顾客需要的并不是按摩,更需要的是我

26岁男按摩师揭秘:大多女顾客需要的并不是按摩,更需要的是我

八斗小先生
2025-09-17 09:55:10
正式开打!俄罗斯通告全球:已经与北约交战

正式开打!俄罗斯通告全球:已经与北约交战

文雅笔墨
2025-09-16 16:33:04
善恶终有报,狂妄自大的“盲人”歌手杨光,终究付出了惨痛代价

善恶终有报,狂妄自大的“盲人”歌手杨光,终究付出了惨痛代价

萧嚉影视解说
2025-08-21 17:55:55
金昊家门上的字被人抹掉了,20岁弟弟对抗县城权势家族的泣血之战

金昊家门上的字被人抹掉了,20岁弟弟对抗县城权势家族的泣血之战

坦然风云
2025-09-14 11:59:43
为什么外国人提血统中国人却很少。网友模拟了一段对话,简直笑死

为什么外国人提血统中国人却很少。网友模拟了一段对话,简直笑死

侃神评故事
2025-09-16 07:48:50
辽宁男子20年内喝两万斤酒,变成“河马”脖,并自称:我不算酒神

辽宁男子20年内喝两万斤酒,变成“河马”脖,并自称:我不算酒神

诺言卿史录
2025-09-17 09:00:09
时隔1年,日本主帅再谈7-0:对国足是巨大打击!我们只发挥6-7成

时隔1年,日本主帅再谈7-0:对国足是巨大打击!我们只发挥6-7成

我爱英超
2025-09-16 15:26:34
A股:为什么庄家敢打压股价,却不怕别人抢廉价筹码?看完涨知识了

A股:为什么庄家敢打压股价,却不怕别人抢廉价筹码?看完涨知识了

股经纵横谈
2025-09-16 20:07:55
北京8岁女孩少年宫失踪,失联7天给爸爸7次托梦:爸爸冰柜里好冷

北京8岁女孩少年宫失踪,失联7天给爸爸7次托梦:爸爸冰柜里好冷

古怪奇谈录
2025-09-06 10:25:06
申花1-2被逆转,验出水货国脚:2丢球都与他有关,5.9分全场垫底

申花1-2被逆转,验出水货国脚:2丢球都与他有关,5.9分全场垫底

球场没跑道
2025-09-16 20:41:46
国务院国资委副主任袁野:目前中央企业设立创新基金总规模已接近千亿元

国务院国资委副主任袁野:目前中央企业设立创新基金总规模已接近千亿元

财联社
2025-09-17 11:05:04
2025-09-17 14:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15631文章数 514087关注度
往期回顾 全部

科技要闻

英伟达RTX6000D遇冷,中国大厂不买账

头条要闻

女子坠井54小时获救:几条蛇爬身上 被咬了也不敢动

头条要闻

女子坠井54小时获救:几条蛇爬身上 被咬了也不敢动

体育要闻

什么小火龙?申京已经是MVP水平!

娱乐要闻

官媒发文证实,李乃文再破天花板

财经要闻

曝匹克大幅降薪 员工还要进行"三观培训"

汽车要闻

唐DM-i智驾版175KM长续航版上市售价17.98万起

态度原创

手机
本地
亲子
游戏
军事航空

手机要闻

vivo成6-8月冠军,小米第二,OPPO第三

本地新闻

云游忻州 | 慢时光!老街逛吃,烟火气超上头~

亲子要闻

“谁拿走了我的胎盘?”商业胎盘干细胞库狂奔背后的隐忧

《2077》总监来重庆玩:真是个惊艳的赛博朋克城市!

军事要闻

歼-20战机首次进行静态展示

无障碍浏览 进入关怀版