网易首页 > 网易号 > 正文 申请入驻

DeepMind用AI重构科研流程,Kaggle竞赛击败84%选手

0
分享至

近日,谷歌 DeepMind 联合 MIT、哈佛发布了一篇长达 71 页的论文,提出了一项突破性成果:他们开发了一种能帮助科学家自动生成“专家级科研实证软件”的 AI 系统。该系统结合大语言模型(LLM)与树搜索(tree search),首先通过 LLM 生成代码,再利用树搜索在巨大的解空间中系统地探索与改进,能在数小时至数天内完成人类需要数月才能完成的科研编程任务。

这一方法已在多个科学领域展现出“专家级成果”,包括生物信息学、流行病学、地理空间分析、神经科学、时间序列预测和数值分析,且往往优于现有人类顶尖方案。论文强调,AI 通过主动检索并整合外部复杂的研究思想,实现了“超人表现”,为加速科学发现提供了一条通用路径。


图|相关论文(来源:arXiv)

现代科研越来越依赖软件,从化学模型、天气模拟、流体力学建模,到社会系统预测,背后都是复杂的代码。然而开发适用于特定领域的代码通常需要长达几年繁琐的工作,且过程极其依赖研究者的直觉和经验,漫长的耗时极大限制了科学探索的效率。

研究团队将这些科学难题称为“可评分任务”(scorable tasks),定义为可通过“实证软件”(empirical software)解决的科学问题,而“实证软件”就是科研中所有为了最大化特定评估指标而设计的软件(例如对已有观测的拟合程度)。

该研究开发的 AI 系统旨在系统并且自动地生成可以解决“可评分任务”的“实证软件”,结合大语言模型与树搜索算法来更新迭代软件以提高软件的质量评分。


图|LLM 与树搜索自动生成科研软件的流程示意图(来源:arXiv)

首先,用户提供具体的问题描述、评价指标以及相关数据,接下来 LLM 根据这些线索生成候选 Python 代码,而候选程序都会在沙盒环境中运行并得到一个质量评分。接着树搜索程序会参考每个方案的得分,不断选择哪些候选解法值得进一步改进和扩展。

研究团队提出了 PUCT(Predictor + Upper Confidence bound applied to Trees)树搜索算法,收到 AlphaZero 的上置信界(Upper Confidence Bound UCB)启发,通过平衡开发和探索来选择新的候选程序。该系统的另一大关键是能够探索并整合来自外部来源的研究想法。这些想法可能来自科学论文、教材或搜索引擎(包括 Gemini Deep Research 和 AI co-scientist 等 LLM 工具),会被注入 LLM 提示以指导代码生成。

研究团队通过 2023 年的 16 场 Kaggle 比赛来开发和完善 AI 代码变异系统,并且与排行榜上的人类参赛者进行对照校准以取得高分。


图|Kaggle 实验结果(来源:arXiv)

上图展示了 AI 系统在这 16 场比赛中的平均公共排行榜百分位数表现:树搜索(TS)方法的表现显著优于单次 LLM 调用,甚至优于 1000 次 LLM 调用中最好的结果。在树搜索过程中,AI 会不断发现新的策略,使得分数出现“跳跃式”提升,而这些累积的跃升最终带来了最高质量的解决方案。

实验也说明在提示中加入针对具体问题的建议,能大幅提升表现。在“TS + 专家建议”实验中,研究员向模型提供了赢得 Kaggle 比赛的常见经验性指导;在“TS + Boosted Decision Tree (BDT)”实验中,模型被要求从零开始实现一个决策树库,而不使用现成的标准包。


图|单细胞批次整合过程示意图(来源:arXiv)

研究团队在六个不同的科学领域基准任务评估该方法,并且得到超过人类最新方法的表现。

在基因组学领域,这一系统在单细胞 RNA 测序(scRNA-seq)的批次效应消除任务中表现突出,研究员使用了 OpenProblems 批次整合基准来测量模型表现。面对高维且稀疏的数据,该系统不仅成功去除了混杂的批次效应,同时还保留了生物学信号。

系统共提出了 87 种全新的单细胞数据分析方法,其中 40 种都在 OpenProblems 排行榜上超越了人类专家开发的最佳模型。最具代表性的成果之一是 BBKNN (TS),它通过对现有方法 ComBat 与 BBKNN 的重新组合,实现了“理念重组”的突破,使整体表现比最佳已发表方法提升了 14%。


(来源:arXiv)

研究团队还交给了 AI 系统前沿的全脑神经活动预测任务,评估基准为斑马鱼全脑神经元活动预测基准(ZAPBench),目标是对超过 7 万个神经元的全脑活动进行建模和预测。实验表明,AI 系统在大多数预测范围内都优于所有基线模型,包括此前表现最佳的 Unet 视频模型;在一步预测任务中,专门设计的模型也达到了领先水平。

AI 系统进化出了能够结合丰富特征集、时间卷积、学习到的“全局脑状态”、神经元特定嵌入的模型。研究团队同时探索性地将“生物物理神经元模拟库(Jaxley)”整合进预测方案,进一步提升了模型的表现与解释力。这一探索仅是概念验证,却预示了 AI 在科学研究中不仅能拟合数据,还可整合科学原理(如生物物理模拟),为构建更可解释的模型开辟了新道路。

参考资料

https://arxiv.org/abs/2509.06503

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
印度公司欺骗中国,转卖稀土给美国雷神造导弹,阿三既蠢又邪恶

印度公司欺骗中国,转卖稀土给美国雷神造导弹,阿三既蠢又邪恶

我心纵横天地间
2026-01-29 21:09:12
国民党率团赴京,郑丽文对大陆称呼变了,蔡英文不排除再度出马

国民党率团赴京,郑丽文对大陆称呼变了,蔡英文不排除再度出马

南山塔的姑娘
2026-02-01 08:07:20
装成熟:其实是想钓金龟婿

装成熟:其实是想钓金龟婿

飛娱日记
2026-01-27 13:32:15
范晓萱上中国节目泄近况!网一看身影哭了惊呼:有大S影子

范晓萱上中国节目泄近况!网一看身影哭了惊呼:有大S影子

夏天笑眯眯
2026-02-01 16:17:09
绍伊古突访中国,释放了什么重磅信号?

绍伊古突访中国,释放了什么重磅信号?

今日马说
2026-02-01 21:58:50
MVP前二正面对决!SGA轰34+5+13完胜约基奇 掘金主帅矛头直指吹罚

MVP前二正面对决!SGA轰34+5+13完胜约基奇 掘金主帅矛头直指吹罚

锅子篮球
2026-02-02 16:11:39
亲家有没有钱,一看便知:没钱的亲家,大多有以下4个坏习惯

亲家有没有钱,一看便知:没钱的亲家,大多有以下4个坏习惯

千秋文化
2025-12-03 10:05:36
东莞往事,那年台风天,我和30岁女房东.......

东莞往事,那年台风天,我和30岁女房东.......

千年人参它会跑
2024-12-21 21:24:33
记者:雅凯转会利物浦的转会费为5500万镑+500万镑浮动

记者:雅凯转会利物浦的转会费为5500万镑+500万镑浮动

懂球帝
2026-02-02 16:25:17
澳门英皇娱乐酒店大堂78公斤黄金被连夜撤走,价值超8580万元!工作人员回应:与金价无关,系内部装修需要

澳门英皇娱乐酒店大堂78公斤黄金被连夜撤走,价值超8580万元!工作人员回应:与金价无关,系内部装修需要

每日经济新闻
2026-02-01 13:50:08
拉夫罗夫抨击欧洲政客, 称俄罗斯本可以过上无忧无虑的幸福生活

拉夫罗夫抨击欧洲政客, 称俄罗斯本可以过上无忧无虑的幸福生活

山河路口
2026-02-01 22:10:17
本届最大遗珠!伦纳德还有机会递补全明星吗?

本届最大遗珠!伦纳德还有机会递补全明星吗?

篮球实录
2026-02-02 15:10:28
黄仁勋真豪气,从台湾省飞走了,坐的是私人飞机,价值超过5亿!

黄仁勋真豪气,从台湾省飞走了,坐的是私人飞机,价值超过5亿!

小娱乐悠悠
2026-01-31 09:43:19
32岁双冠王陈梦突传离队,秦志戬一句话泄露国乒终极计划

32岁双冠王陈梦突传离队,秦志戬一句话泄露国乒终极计划

卿子书
2026-02-02 15:08:06
雷军:第一代小米SU7已停售 个别车商为了蹭流量又哭又闹 欢迎大家帮我们举报

雷军:第一代小米SU7已停售 个别车商为了蹭流量又哭又闹 欢迎大家帮我们举报

快科技
2026-02-02 12:42:07
“肺部有癌,嘴巴先知”!嘴上出现这3种异常,千万不要掉以轻心

“肺部有癌,嘴巴先知”!嘴上出现这3种异常,千万不要掉以轻心

熊猫医学社
2026-02-01 11:30:03
古代官员的噩梦--丁忧守制

古代官员的噩梦--丁忧守制

琅琊左史
2025-12-23 09:48:47
东体:有其他中超队也对加布感兴趣,球员已到上海将回归海港

东体:有其他中超队也对加布感兴趣,球员已到上海将回归海港

懂球帝
2026-02-02 10:45:12
美国秘密曝光!联邦都不好使,这帮人已经无法无天...

美国秘密曝光!联邦都不好使,这帮人已经无法无天...

毛豆论道
2026-01-24 19:02:21
局势彻底变了!美舰遭强力拦截,解放军不再克制,台独退路全断!

局势彻底变了!美舰遭强力拦截,解放军不再克制,台独退路全断!

霁寒飘雪
2026-01-28 19:34:11
2026-02-02 16:51:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16211文章数 514582关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

媒体:美用一次军事打击摧毁伊朗政权可能性已大幅降低

头条要闻

媒体:美用一次军事打击摧毁伊朗政权可能性已大幅降低

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

商品期货暴跌 全球股市遭遇"黑色星期一"

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

时尚
游戏
本地
手机
房产

普通人衣服没必要买太多,准备好这些单品,简单实用又耐看

《巫师4》追求真实的灵感源自"无冕之王"!玩家享福了

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

手机要闻

2026年首款万元Ultra!三星Galaxy S26 Ultra海报偷跑

房产要闻

狂卖1548亿后,海南又上演疯狂抢地!

无障碍浏览 进入关怀版