网易首页 > 网易号 > 正文 申请入驻

谷歌:一个能「做研究」的系统诞生了,LLM+树搜索编写专家级软件

0
分享至

机器之心报道

编辑:冷猫

大模型在科研领域越来越高效了。

昨天,谷歌发表了一篇重磅文章,提出了一个能够帮助科研人员编写「专家级」科研软件的 AI 系统。

该系统融合了大语言模型和传统树搜索,能够自动编写和优化科研任务中所需的软件程序,能够获取多种渠道的现有知识,整合并且重组这些知识来构建一个新的研究思路。

谷歌生成,该系统不仅稳定达到专家水平,还常常超越人类。在基因组学、公共健康、数值分析等多个领域,这套系统的表现甚至超过了顶尖研究团队和国家级集成系统。

  • 论文标题:An AI system to help scientists write expert-level empirical software
  • 论文链接:https://www.alphaxiv.org/abs/2509.06503v1

如此这般,科研人员在各个领域的研究中都能够使用这一 AI 系统来构建全新的研究思路和实证程序,能够更高效地进行科学研究。

AI 在科研领域的应用一直以自动化的特性为主,能够辅助科研人员进行可行性验证,完成一些重复的高强度工作,减少科研人员在重复验证、调试程序等工作上浪费的时间,更能够激发科研人员的创新思维。

谷歌的这个系统能够实现研究思路的整合与重组,在科研任务中能够创建一些新的策略,构建更高效的模型,让 AI 系统介入科研领域的创新过程,从一次性代码生成的工具,转变为由量化目标指导的迭代、搜索驱动的软件演进。

不过也有网友表达了 AI 深入科研领域的担忧:

谷歌这一次的 AI 系统仍然具有很大的局限性,系统的构建目标是「可评分的科学任务」—— 即那些可以通过准确率、误差率或基准测试排名等指标来量化软件性能的计算问题,虽覆盖了广泛的科研领域,但未提及那些不可量化评估的任务表现。

值得一提的是,前谷歌搜索成员Deedy Das分享了这个工作,而他最感兴趣的是论文附录中的 Prompt。

论文中使用的指令:「请创建一种算法,结合两种策略的优点,形成一种真正出色的混合策略,并且其得分要高于任一单独策略。」说明优秀的结果并不总需要非常复杂的 Prompt 指令。

论文详细内容如下:

本研究引入了一个 AI 系统,该系统能自动为科学计算任务创建专家级的实证软件。该系统结合了大型语言模型和树搜索算法,以迭代地生成、评估和完善科学软件解决方案。其核心创新在于,LLM 不仅用于一次性代码生成,而是作为系统搜索过程中一个智能的「变异」引擎,能够整合并重组科学文献中的研究思路。

图 1: (a) 系统架构:展示了可评分问题与研究思路如何输入到大语言模型(LLM),由其生成代码,并在沙盒环境中进行评估,结果以树搜索结构进行组织。(b) 性能对比:不同方法的成功率比较,结果显示结合专家指导的树搜索(TS)取得了最高成功率。(c) 研究思路来源:包括专家知识、学术论文,以及 AI 生成的重组方案。

问题与方法

本系统的目标是「可评分的科学任务」—— 即那些可以通过准确率、误差率或基准测试排名等指标来量化软件性能的计算问题。这类任务涵盖了从基因组学到流行病学再到图像分析等广泛的科学计算应用。

该方法论围绕三个核心组件协同工作:

1. 基于 LLM 的代码变异

不同于从零生成代码,LLM 会持续重写并优化已有的候选代码。系统利用 LLM 对编程逻辑和领域上下文的理解,结合研究思路和性能反馈,进行智能化修改和改进。

2. 树搜索导航

代码生成过程被嵌入到树搜索算法中,以系统化方式探索庞大的软件解空间。搜索过程在「利用」(集中改进已有的优质解)和「探索」(寻找全新方法)之间取得平衡,使用了一种受 AlphaZero 启发的 PUCT 算法变体。

3. 研究思路的融合

该系统的一大特色是能够通过多种渠道引入外部知识:

  • 直接注入来自科学论文和教材的研究思路
  • 利用如 Gemini Deep Research 等工具生成 LLM 研究见解
  • 程序化地重组已有成功方案,形成混合策略

该系统在 Kaggle playground 竞赛中开发与迭代,因其具有快速迭代周期和清晰的人类表现基准,成为理想的测试平台。

跨科学领域的主要成果

基因组学:单细胞 RNA 测序

在从单细胞 RNA 测序数据中去除技术批次效应同时保留生物学信号的挑战性任务中,该系统发现了 40 种新方法,其性能优于 OpenProblems 排行榜上所有已发表的方法。性能最佳的方法 BBKNN (TS) 通过将ComBat校正的 PCA 嵌入与批次平衡 K 近邻相结合,比现有最佳方法(ComBat)提高了 14%。

图 2:树搜索进展图,显示了迭代过程中性能的提高,并在突破点处标注了关键算法创新。该系统发现了优化批次感知图构建和实现 ComBat 基因表达校正的方法。

地理空间分析:卫星图像分割

在使用DLRSD 数据集进行卫星图像的密集像素级语义分割时,该系统的前三名解决方案显著优于最近的学术论文,平均交并比分数大于 0.80。这些解决方案基于现有架构(UNet++、SegFormer),但优化了它们与强大的预训练编码器和广泛数据增强策略的集成。

图 3:卫星图像分割结果示例,显示原始图像(顶行)、真实掩模(中行)和系统预测(底行)。系统成功分割了包括机场、跑道、飞机和基础设施在内的各种特征。

神经科学:全脑神经活动预测

在斑马鱼大脑中建模超过 70,000 个神经元的活动(ZAPBench)时,系统生成的最佳模型在多步预测方面优于所有基线,并且训练速度比竞争视频模型快几个数量级。该系统成功地将生物物理神经元模拟器(Jaxley)整合到高性能解决方案中。

时间序列预测

在涵盖 28 个不同时间序列数据集的 GIFT-Eval 基准测试中,该系统在多个数据集上的性能优于排行榜。值得注意的是,它从头开始创建了一个统一的预测库,该库能自适应地配置到不同的数据集,并将时间序列分解为各个组成部分。

图 4:系统发现的成功预测方法的分布。梯度提升方法(GBM)和集成方法在各种预测任务中是最常成功的策略。

数值分析:复杂积分

对于评估具有无限限度的振荡积分(其中 scipy.integrate.quad () 等标准算法完全失效)时,演化出的代码正确评估了 19 个留出积分中的 17 个,误差在 3% 分数误差之内。该解决方案实现了复杂的数学启发式方法,包括域划分和欧拉变换以加速级数。

技术创新:研究思路与重组

一个关键的创新是研究思路的系统集成及其智能重组。该系统可以分析不同方法的核心原理,并合成创建混合方法的指令。

图 5:方法重组结果分析,显示原始方法与其组合版本之间的性能比较。绿色条表示成功的改进,红色条表示性能下降,而蓝色表示原始方法的性能。

总结

这项研究表明,AI 不仅能够实现自动化,还能在多个科学领域系统性地超越人类在科研软件开发中的表现。系统在生物信息学、流行病学、地理空间分析、神经科学和数值分析等领域中,持续取得专家级,甚至超越人类水准的成果,显示出其广泛的适用性。

该方法标志着科研软件开发范式的转变:从「一次性代码生成」走向「以可量化科学目标为导向」的迭代式、搜索驱动的软件进化。通过将开发周期从「数周甚至数月」缩短至「数小时或数天」,这一系统有效解决了科研中的关键瓶颈问题,有潜力加速所有以可量化指标衡量的计算研究。

系统在大规模解空间中进行系统化探索,融合多元研究思路,并能大海捞针般的找出高质量解决方案。这种能力预示着它可能从根本上改变科研软件的开发方式:

既能让更多研究者平等获取先进的分析工具,也能不断拓展科学探索在计算能力上的边界。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗外长:霍尔木兹海峡只对敌人关闭 中国、俄罗斯等国船只都安全通过了

伊朗外长:霍尔木兹海峡只对敌人关闭 中国、俄罗斯等国船只都安全通过了

闪电新闻
2026-03-26 10:48:55
苹果憋了3年没告诉你:你的充电器一直在"摸鱼"

苹果憋了3年没告诉你:你的充电器一直在"摸鱼"

全栈遛狗员
2026-03-25 23:00:33
小米捷报,误伤宁德时代

小米捷报,误伤宁德时代

ZAKER新闻
2026-03-26 22:10:32
在哪一瞬间,对你老公彻底失望了?网友:强行分居两年,然后离婚

在哪一瞬间,对你老公彻底失望了?网友:强行分居两年,然后离婚

另子维爱读史
2026-03-24 21:15:00
49岁翁帆突传“喜讯”!丧夫5个月后高调露面,状态好到出人意料

49岁翁帆突传“喜讯”!丧夫5个月后高调露面,状态好到出人意料

查尔菲的笔记
2026-03-16 19:12:07
三次精准躲过斩首行动,卡尼突然现身反转剧情,伊朗这局水太深了

三次精准躲过斩首行动,卡尼突然现身反转剧情,伊朗这局水太深了

盛夏微凉
2026-03-24 18:10:08
王海团队:已协助起诉黄天鹅

王海团队:已协助起诉黄天鹅

南方都市报
2026-03-26 10:59:32
重返广东!李春江有了新工作,亮相篮球场,岗位曝光,杜锋期待

重返广东!李春江有了新工作,亮相篮球场,岗位曝光,杜锋期待

萌兰聊个球
2026-03-26 13:02:53
2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

李喜林篮球绝杀
2026-03-26 17:04:26
国防部:菲方侵权挑衅只会遭到更加坚决应对

国防部:菲方侵权挑衅只会遭到更加坚决应对

界面新闻
2026-03-26 16:00:27
浙江省人大常委会决定任免部分省政府组成部门主要负责人

浙江省人大常委会决定任免部分省政府组成部门主要负责人

浙江发布
2026-03-26 10:04:01
不仅抗炎,这还是眼睛、大脑最爱的营养!

不仅抗炎,这还是眼睛、大脑最爱的营养!

FitEmpire健身领域
2026-03-26 14:53:07
你知道的高档会所里消费有多高?网友:贫穷限制了我的想象

你知道的高档会所里消费有多高?网友:贫穷限制了我的想象

夜深爱杂谈
2026-03-14 21:25:13
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
澳门国民党中将吕文贞突然说,我是李克农的人,该向组织报到了

澳门国民党中将吕文贞突然说,我是李克农的人,该向组织报到了

鹤羽说个事
2026-03-25 21:56:09
萨拉赫离队去向已明:不去沙特淘金,誓在欧洲巅峰再战

萨拉赫离队去向已明:不去沙特淘金,誓在欧洲巅峰再战

乐道足球
2026-03-26 20:44:07
马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

影孖看世界
2026-03-26 23:28:51
被伊朗打疼了?美以一边要求停火30天,一边密集调动特种部队!

被伊朗打疼了?美以一边要求停火30天,一边密集调动特种部队!

军武次位面
2026-03-26 14:29:00
2026普法:强奸、通奸、嫖娼,只有这个行为会坐牢!

2026普法:强奸、通奸、嫖娼,只有这个行为会坐牢!

奇葩游戏酱
2026-03-26 05:01:32
美媒:以总理提议,特朗普拒绝

美媒:以总理提议,特朗普拒绝

环球时报国际
2026-03-27 00:13:22
2026-03-27 01:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
游戏
健康
公开课
军事航空

亲子要闻

看看把孩子吓得哈哈哈

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版