网易首页 > 网易号 > 正文 申请入驻

DeepMind用AI重构科研流程,Kaggle竞赛击败84%选手

0
分享至

近日,谷歌 DeepMind 联合 MIT、哈佛发布了一篇长达 71 页的论文,提出了一项突破性成果:他们开发了一种能帮助科学家自动生成“专家级科研实证软件”的 AI 系统。该系统结合大语言模型(LLM)与树搜索(tree search),首先通过 LLM 生成代码,再利用树搜索在巨大的解空间中系统地探索与改进,能在数小时至数天内完成人类需要数月才能完成的科研编程任务。

这一方法已在多个科学领域展现出“专家级成果”,包括生物信息学、流行病学、地理空间分析、神经科学、时间序列预测和数值分析,且往往优于现有人类顶尖方案。论文强调,AI 通过主动检索并整合外部复杂的研究思想,实现了“超人表现”,为加速科学发现提供了一条通用路径。


图|相关论文(来源:arXiv)

现代科研越来越依赖软件,从化学模型、天气模拟、流体力学建模,到社会系统预测,背后都是复杂的代码。然而开发适用于特定领域的代码通常需要长达几年繁琐的工作,且过程极其依赖研究者的直觉和经验,漫长的耗时极大限制了科学探索的效率。

研究团队将这些科学难题称为“可评分任务”(scorable tasks),定义为可通过“实证软件”(empirical software)解决的科学问题,而“实证软件”就是科研中所有为了最大化特定评估指标而设计的软件(例如对已有观测的拟合程度)。

该研究开发的 AI 系统旨在系统并且自动地生成可以解决“可评分任务”的“实证软件”,结合大语言模型与树搜索算法来更新迭代软件以提高软件的质量评分。


图|LLM 与树搜索自动生成科研软件的流程示意图(来源:arXiv)

首先,用户提供具体的问题描述、评价指标以及相关数据,接下来 LLM 根据这些线索生成候选 Python 代码,而候选程序都会在沙盒环境中运行并得到一个质量评分。接着树搜索程序会参考每个方案的得分,不断选择哪些候选解法值得进一步改进和扩展。

研究团队提出了 PUCT(Predictor + Upper Confidence bound applied to Trees)树搜索算法,收到 AlphaZero 的上置信界(Upper Confidence Bound UCB)启发,通过平衡开发和探索来选择新的候选程序。该系统的另一大关键是能够探索并整合来自外部来源的研究想法。这些想法可能来自科学论文、教材或搜索引擎(包括 Gemini Deep Research 和 AI co-scientist 等 LLM 工具),会被注入 LLM 提示以指导代码生成。

研究团队通过 2023 年的 16 场 Kaggle 比赛来开发和完善 AI 代码变异系统,并且与排行榜上的人类参赛者进行对照校准以取得高分。


图|Kaggle 实验结果(来源:arXiv)

上图展示了 AI 系统在这 16 场比赛中的平均公共排行榜百分位数表现:树搜索(TS)方法的表现显著优于单次 LLM 调用,甚至优于 1000 次 LLM 调用中最好的结果。在树搜索过程中,AI 会不断发现新的策略,使得分数出现“跳跃式”提升,而这些累积的跃升最终带来了最高质量的解决方案。

实验也说明在提示中加入针对具体问题的建议,能大幅提升表现。在“TS + 专家建议”实验中,研究员向模型提供了赢得 Kaggle 比赛的常见经验性指导;在“TS + Boosted Decision Tree (BDT)”实验中,模型被要求从零开始实现一个决策树库,而不使用现成的标准包。


图|单细胞批次整合过程示意图(来源:arXiv)

研究团队在六个不同的科学领域基准任务评估该方法,并且得到超过人类最新方法的表现。

在基因组学领域,这一系统在单细胞 RNA 测序(scRNA-seq)的批次效应消除任务中表现突出,研究员使用了 OpenProblems 批次整合基准来测量模型表现。面对高维且稀疏的数据,该系统不仅成功去除了混杂的批次效应,同时还保留了生物学信号。

系统共提出了 87 种全新的单细胞数据分析方法,其中 40 种都在 OpenProblems 排行榜上超越了人类专家开发的最佳模型。最具代表性的成果之一是 BBKNN (TS),它通过对现有方法 ComBat 与 BBKNN 的重新组合,实现了“理念重组”的突破,使整体表现比最佳已发表方法提升了 14%。


(来源:arXiv)

研究团队还交给了 AI 系统前沿的全脑神经活动预测任务,评估基准为斑马鱼全脑神经元活动预测基准(ZAPBench),目标是对超过 7 万个神经元的全脑活动进行建模和预测。实验表明,AI 系统在大多数预测范围内都优于所有基线模型,包括此前表现最佳的 Unet 视频模型;在一步预测任务中,专门设计的模型也达到了领先水平。

AI 系统进化出了能够结合丰富特征集、时间卷积、学习到的“全局脑状态”、神经元特定嵌入的模型。研究团队同时探索性地将“生物物理神经元模拟库(Jaxley)”整合进预测方案,进一步提升了模型的表现与解释力。这一探索仅是概念验证,却预示了 AI 在科学研究中不仅能拟合数据,还可整合科学原理(如生物物理模拟),为构建更可解释的模型开辟了新道路。

参考资料

https://arxiv.org/abs/2509.06503

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳南山突发山火,消防到场处置,最新:明火已扑灭,现场无人员被困和受伤,起火原因正在调查

深圳南山突发山火,消防到场处置,最新:明火已扑灭,现场无人员被困和受伤,起火原因正在调查

洪观新闻
2026-02-02 12:50:42
武松练成刀法,师傅周侗叮嘱其避开两位高手,一为师兄一难匹敌

武松练成刀法,师傅周侗叮嘱其避开两位高手,一为师兄一难匹敌

唠叨说历史
2026-01-29 15:33:19
今年腊月二十九除夕,四类人要穿红,3种人不要去拜年,有你吗?

今年腊月二十九除夕,四类人要穿红,3种人不要去拜年,有你吗?

阿龙美食记
2026-01-29 11:03:56
党毅飞立大功,淘汰韩世界冠军,8强中韩7:1,独苗申真谞遭中国包夹

党毅飞立大功,淘汰韩世界冠军,8强中韩7:1,独苗申真谞遭中国包夹

L76号
2026-02-02 10:04:00
四川多名干部履新正厅级领导职务

四川多名干部履新正厅级领导职务

微甘孜
2026-02-02 17:22:11
什么东西都舍不得扔的人,往往会有这样的命运,很准!

什么东西都舍不得扔的人,往往会有这样的命运,很准!

诗词中国
2025-12-29 20:19:57
黑色星期一!A股全线重挫!狂跌之后,普通人机会在哪里?

黑色星期一!A股全线重挫!狂跌之后,普通人机会在哪里?

华哥的投资笔记
2026-02-02 18:36:23
罗马诺爆猛料!曼联或签 2 人,英力士准备砸破队史转会纪录!

罗马诺爆猛料!曼联或签 2 人,英力士准备砸破队史转会纪录!

澜归序
2026-02-02 08:19:58
平均每人负债1300万,书记吴仁宝去世10年后,华西村的现况如何?

平均每人负债1300万,书记吴仁宝去世10年后,华西村的现况如何?

哄动一时啊
2026-01-24 21:29:54
对张庆鹏竖中指?沈梓捷情绪失控一路怒喷 北控或已失控

对张庆鹏竖中指?沈梓捷情绪失控一路怒喷 北控或已失控

大嘴爵爷侃球
2026-02-02 09:31:34
没指望了,公司宣布全面关闭社招并血腥裁员!

没指望了,公司宣布全面关闭社招并血腥裁员!

黯泉
2026-02-01 22:31:41
拦腰砍!22岁阿卡澳网夺冠奖金2004万元 扣完税到手还剩1105万元

拦腰砍!22岁阿卡澳网夺冠奖金2004万元 扣完税到手还剩1105万元

风过乡
2026-02-02 16:42:36
开拓者破赛季纪录,克林根表现惨不忍睹,杨瀚森动了谁的蛋糕

开拓者破赛季纪录,克林根表现惨不忍睹,杨瀚森动了谁的蛋糕

佳佳说奇事故事
2026-02-02 16:27:48
上海炒股冠军肺腑之言:如果你有10万资金,建议死啃美人肩战法!

上海炒股冠军肺腑之言:如果你有10万资金,建议死啃美人肩战法!

股经纵横谈
2026-02-02 19:16:44
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了!

山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了!

观察鉴娱
2026-02-01 15:02:49
就在今天,NBA79年独一无二的纪录,被暴走的阿伦实现了

就在今天,NBA79年独一无二的纪录,被暴走的阿伦实现了

大西体育
2026-02-02 20:28:39
如果“武统”,解放台湾要多久?解放军中将:六战一体,最多三天

如果“武统”,解放台湾要多久?解放军中将:六战一体,最多三天

混沌录
2026-02-01 15:14:10
武汉内环知名医院将改为住宅!拟对口顶级双学区!

武汉内环知名医院将改为住宅!拟对口顶级双学区!

椰青美食分享
2026-02-02 13:47:26
《环球时报》记者独家连线格陵兰岛居民:“我们对美国的认知已发生永久性改变”

《环球时报》记者独家连线格陵兰岛居民:“我们对美国的认知已发生永久性改变”

环球网资讯
2026-02-02 06:55:05
2026-02-02 21:39:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16213文章数 514584关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

捧红王菲、那英的袁惟仁走了 曾被陶晶莹公开调侃

头条要闻

捧红王菲、那英的袁惟仁走了 曾被陶晶莹公开调侃

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

本地
时尚
房产
游戏
艺术

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

伊姐周日热推:电视剧《生命树》;电视剧《风过留痕》......

房产要闻

狂卖1548亿后,海南又上演疯狂抢地!

《巫师4》配乐稳了?《巫师3》作曲家已正式投入创作

艺术要闻

马斯克花5万买的折叠屋,是预制住宅的未来吗?

无障碍浏览 进入关怀版