网易首页 > 网易号 > 正文 申请入驻

首个独立完成科研循环的AI系统问世,顶人类科学家六个月工作量

0
分享至

此前,我们曾报道过这家由前谷歌 CEO Eric Schmidt 支持的非营利组织 Future House 所推出的 AI 科学家 Robin。该系统不仅能够自主完成从假设提出、实验设计到数据分析等关键科研环节,还曾为一个复杂眼疾发现了新的潜在药物,在当时引起了相当广泛的关注。


(来源:FutureHouse)

几个月后,这家非营利研究机构及其新拆分的商业实体 Edison Scientific 又发布了一套更强大的 AI 科学家系统 Kosmos。这个系统在单次运行中可以持续工作 12 至 48 小时,完成相当于人类科研团队数月才能完成的工作量,且其产出的发现中有近 80% 经独立专家验证为准确。

Kosmos 的独特之处在于,它是首个能够真正闭环执行“文献检索-假设生成-数据分析”完整科研循环的系统,且能够在数百次迭代中保持逻辑连贯性。在此之前,包括 Sakana 的 AI Scientist 和谷歌的 AI co-scientist 在内的同类系统,要么局限于特定领域,要么缺乏探索性数据分析能力,要么在长链推理中容易失控。

FutureHouse 今年 5 月推出 AI 科学家平台后,商业需求远超预期。团队披露,六家全球前十大制药公司纷纷主动联系寻求合作,大量生物技术公司请求提高使用限额。这种需求压力促使团队做出了战略调整:将商业化部分拆分成 Edison Scientific,专注产品开发和市场服务,而 FutureHouse 继续承担无法获得其他资金支持的基础研究。

此次推出的 Kosmos 就已经正式商品化,其标准使用费用为每次运行 200 美元左右,这个价格对应的是系统 12 到 48 小时的完整研究周期。不过 Edison Scientific 的商业策略相对克制。公司承诺保留学术用户的免费额度,只对需要更高调用频率或额外功能的重度用户收费。

Kosmos 的核心在于它采用的“世界模型”(world model)架构。这个概念我们已经耳熟能详,但在科研自动化场景中的应用并不多见。团队称其为系统的“大脑”,它持续整合所有代理发现的信息,识别模式和知识空缺,并战略性地决定下一步调查方向。与之前的系统相比,这种架构使 Kosmos 能够运行的迭代次数达到了现有系统的八倍。


图丨Kosmos 的工作流与性能表现(来源:Edison Scientific)

具体而言,Kosmos 在每个周期中最多启动十个文献搜索和数据分析任务的并行实例,然后将任务输出的摘要更新到世界模型中。随后系统查询世界模型,提出下一轮周期需要完成的任务。这种上下文管理策略让 Kosmos 能够同时探索多条研究路径,平均每次运行会执行 166 次数据分析代理展开和 36 次文献综述代理展开。相比之下,该团队此前发布的 Robin 系统只能生成约 4,310 行代码,Kosmos 的代码生成量是其 9.8 倍。

另外,Kosmos 的报告还具有可追溯性。Kosmos 生成的每份科学报告中,每一个论断都直接链接到产生它的数据分析代码或引用的文献来源。不仅便于验证,也让科学家能够理解 AI 的推理路径。

为了验证这套系统的实用性,研究团队与多个学术机构合作,在七个不同科学领域测试了 Kosmos 的表现。其中三项发现成功复现了尚未发表或预印本中的研究结果,另外四项则做出了新颖贡献。


图丨Kosmos 的七项发现(来源:Edison Scientific)

比如在代谢组学案例中,Kosmos 拿到的是关于小鼠大脑低温保护机制的 LC-MS(液相色谱-质谱)数据。人类研究者此前已发现激活特定神经元能诱导低温并产生神经保护效应,但具体代谢通路尚不明确。

Kosmos 在分析中识别出核苷酸代谢通路受影响最显著,进一步推断这是因为核苷酸挽救途径(nucleotide salvage pathway)被激活——前体分子减少、磷酸化产物增加,这种模式提示细胞正在用更节能的方式回收利用核苷酸,而非从头合成。这一结论与合作实验室的未发表手稿高度一致,连关键代谢物的变化方向和幅度都几乎吻合。

在材料科学领域,Kosmos 处理的是钙钛矿太阳能电池制备过程中的环境参数数据。这类电池的性能对制备环境极为敏感,温度、湿度、溶剂蒸气压的微小波动都可能导致器件失效。

Kosmos 自主建立了一套“机制排名评分”(Mechanism Rank Score)体系,综合考虑统计显著性、多层数据一致性和实验证据支持度,最终指出热退火阶段的绝对湿度是决定性因素,表现出“致命过滤器”特征——超过某个阈值后器件几乎必然失效。有意思的是,Kosmos 还发现短路电流密度与旋涂过程中的 DMF(二甲基甲酰胺)溶剂分压呈线性负相关,这一关系此前未被人类研究者注意到,但后来得到了独立验证。


(来源:arXiv)

不过,Kosmos 也有失手的时候。在对人类基因组数据的分析中, 它试图用孟德尔随机化方法找出 2 型糖尿病的保护性蛋白, 过程中共定位分析因数据格式问题失败。Kosmos 没有修复流程, 而是转向了精细定位(fine-mapping)分析, 最终仍然锁定了 SOD2(超氧化物歧化酶 2)作为候选靶点。这种“绕路”策略体现了系统的适应性,但也暴露出它在遇到意外情况时的处理能力仍不够稳健。

独立评估显示,Kosmos 报告中基于数据分析的陈述有 85.5% 准确,文献综述类陈述准确率为 82.1%,但需要跨领域综合推理的解释性陈述只有 57.9% 准确。这个数字并不令人惊讶,即使对人类科学家而言,从相关性推导因果关系、从多个线索构建机制假说,也是最容易出错的环节。

团队在论文中坦承,Kosmos 倾向于发明一些“非正统的定量指标”,这些指标虽然统计上说得通,但概念上可能晦涩难懂。它也常把统计显著性等同于科学价值,对实验结果过度自信。

七位合作学者评估后认为,一次 20 周期的 Kosmos 运行产出的有价值发现数量随运行时间线性增长,平均相当于 6.2 个月的专家工作量——这比团队自己估算的 4.1 个月更乐观。

但值得注意的是,这些学者同时指出,识别哪些发现真正有意义仍然极度依赖人类专家判断。一份 Kosmos 报告通常包含 3 到 4 个发现叙述,每个叙述基于 8 到 9 条代理轨迹,包含约 25 条具体论断。逐一验证这些论断的准确性、新颖性和重要性,本身就是一项耗时的工作。

这也解释了为什么 Edison Scientific 强调“科学家在环”(scientist-in-the-loop)的工作模式。Kosmos 的设计初衷不是取代人类研究者,而是承担繁重的数据探索和文献梳理工作,让人类能够把精力集中在提出问题、评估结果和规划后续实验上。

团队发现,数据质量对 Kosmos 表现影响极大——格式规范、标注清晰、经过预处理的数据集能让系统更快收敛到有意义的发现,而混乱的原始数据往往导致系统在技术细节上空转。这提示 Kosmos 目前更适合处理已经经过初步整理的数据,而不是直接面对测序仪输出的海量原始文件。

目前 Kosmos 的局限性也相当明显。它只能处理约 5GB 以下的数据集,无法自主访问公开数据库进行对照验证,对图像或原始测序文件的处理能力较弱。更关键的问题在于,多次独立运行未必能收敛到相同的发现,这种随机性在探索性研究中可能是优势,但在需要稳定可靠结论的场景下就成了隐患。

研究目标的措辞微调也会显著影响系统的探索方向,这提示用户需要反复迭代提示语,才能让 Kosmos 朝着预期方向推进。而且当前版本不支持中途干预,科学家无法在运行过程中调整策略或提供反馈,只能等整个流程结束后查看结果。

尽管如此,Kosmos 代表的方向已经比此前的 AI 科学家尝试走得更远。Sakana AI 的 AI Scientist 局限于机器学习领域,Google 的 AI co-scientist 不进行实际实验,而 Virtual Lab 虽然成功设计了 SARS-CoV-2 纳米抗体,但缺乏 Kosmos 这样的通用探索能力。从代谢组学到统计遗传学,从材料科学到神经科学,Kosmos 展示出跨领域迁移的潜力。如果未来版本能够接入实验室自动化设备,形成“提出假设-设计实验-执行实验-分析数据”的完整闭环,那么科学发现的速度可能迎来量级跃迁。

One more thing,团队在测试中发现了一个重要规律:当让 Kosmos 运行更长时间、执行更多研究循环时,它产出的有价值发现数量呈线性增长。具体来说,如果一次 12 小时的运行相当于人类 6 个月的工作量,那么 24 小时的运行就能完成 12 个月的工作。这种工作量的增长是稳定的、可预测的。在测试中,这种线性关系一直延续到 20 个研究循环。

这一发现被团队称为科研领域的“推理时扩展定律”(inference-time scaling law)。不过,团队也强调,Kosmos 运行时间越长,越容易陷入所谓的“兔子洞”,即追逐那些统计上显著但科学上毫无意义的相关性,或是在没有前景的方向上越走越远。他预计,如果真的把这种扩展推到逻辑极限,最终可能会出现反转:系统产出的价值不再增长,甚至开始下降。

这个问题的根源在于底层语言模型的判断能力。当研究深度超过一定阈值,模型需要更强的能力来区分哪些线索值得追踪,哪些应该果断放弃。为此,Edison Scientific 正在积极改进底层模型,试图让 Kosmos 在更长的运行时间里依然保持科学判断力。这也意味着,目前的 Kosmos 更适合作为一种“快速探索工具”,在 12 到 48 小时的窗口内发挥最大效用,而非无限延长运行时间。

参考资料:

1.https://arxiv.org/abs/2511.02824

2.https://edisonscientific.com/articles/announcing-kosmos

3.https://edisonscientific.com/articles/announcing-edison-scientific

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
续航515km 丰田汉兰达纯电版首发亮相

续航515km 丰田汉兰达纯电版首发亮相

车质网
2026-02-11 13:37:50
能治老花眼的滴眼液首获FDA批准,滴一滴30分钟起效、保持10小时

能治老花眼的滴眼液首获FDA批准,滴一滴30分钟起效、保持10小时

DeepTech深科技
2026-02-07 20:41:12
全球炮弹荒爆大瓜:不是造不出,是高端炸药被少数国家焊死了饭碗

全球炮弹荒爆大瓜:不是造不出,是高端炸药被少数国家焊死了饭碗

老谢谈史
2026-02-05 15:27:23
闲鱼不愧是全国最大的黑市,网民:只有你想不到,没有你买不到

闲鱼不愧是全国最大的黑市,网民:只有你想不到,没有你买不到

小熊侃史
2026-01-16 07:40:07
法官问为何不交物业费,业主反问:不交税违法,不交费违法吗

法官问为何不交物业费,业主反问:不交税违法,不交费违法吗

蜉蝣说
2026-02-03 16:31:54
香港回不来,加拿大又待不下去,这一次心高气傲李婉华没有退路

香港回不来,加拿大又待不下去,这一次心高气傲李婉华没有退路

悠悠说世界
2026-02-10 01:32:41
八年徒步七千四百里,七步一叩首至拉萨终获天眼

八年徒步七千四百里,七步一叩首至拉萨终获天眼

暮雨咋歇着
2026-02-11 02:32:56
朱江明听劝了!豪掷百台iPhone 17 Pro抽奖,舆论反转

朱江明听劝了!豪掷百台iPhone 17 Pro抽奖,舆论反转

雷科技
2026-02-11 12:13:35
谢什科绝平曼联1-1守住前四!卡里克明显犯错,真正考验已经到来

谢什科绝平曼联1-1守住前四!卡里克明显犯错,真正考验已经到来

篮球看比赛
2026-02-11 11:43:24
买年后机票付款直接减了2000元!网友:工行bug?客服回应

买年后机票付款直接减了2000元!网友:工行bug?客服回应

潇湘晨报
2026-02-11 11:29:31
婆婆刷我卡70万给小姑子买房,还打电话数落我,我立刻冻结了

婆婆刷我卡70万给小姑子买房,还打电话数落我,我立刻冻结了

无心小姐姐
2026-02-11 12:41:27
李亚鹏直播哭了!十年前求黄晓明借钱,他只回4字,至今未提还!

李亚鹏直播哭了!十年前求黄晓明借钱,他只回4字,至今未提还!

乐悠悠娱乐
2026-02-11 08:37:30
娜扎透视裙惊艳全网!这身材这颜值,谁能顶得住?

娜扎透视裙惊艳全网!这身材这颜值,谁能顶得住?

娱乐领航家
2026-02-03 23:30:03
当今世界,哪些国家是世仇

当今世界,哪些国家是世仇

王鶔吃吃喝喝
2026-02-09 19:35:59
新加坡超级DJ网红苏樱花在日本业界出道

新加坡超级DJ网红苏樱花在日本业界出道

孤独的独角兽影视
2026-02-11 09:30:11
一个家能干净到什么程度?看了50岁阿姨的家后,我立马悟了

一个家能干净到什么程度?看了50岁阿姨的家后,我立马悟了

装修秀
2026-02-10 11:40:03
人老了,想多活几年,先管住自己十点:1、不摔倒,2、不劳累……

人老了,想多活几年,先管住自己十点:1、不摔倒,2、不劳累……

三农老历
2026-02-08 01:47:40
钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

墨印斋
2026-01-31 16:37:48
中华人民共和国正式向全世界宣告两件大事:

中华人民共和国正式向全世界宣告两件大事:

百态人间
2026-02-05 15:32:53
从梁光烈到廖锡龙,三位寒门上将,都离我们而去

从梁光烈到廖锡龙,三位寒门上将,都离我们而去

文史茶馆2020
2026-02-10 17:02:30
2026-02-11 14:08:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16250文章数 514602关注度
往期回顾 全部

科技要闻

痛失两位华裔大佬!马斯克为何留不住人心

头条要闻

媒体:俄外长突然放下狠话 令人感觉到一阵阵寒意

头条要闻

媒体:俄外长突然放下狠话 令人感觉到一阵阵寒意

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

汪峰吃惊!章子怡年前6天高调官宣喜讯

财经要闻

习酒节前价格雪崩控量稳价变空谈

汽车要闻

新款阿维塔12内饰官图:全面升级 兼顾智能与豪华

态度原创

亲子
时尚
艺术
旅游
军事航空

亲子要闻

叶酸这样吃很危险!医生劝告:很多人吃错了,尽快改正

伊姐周日热推:电视剧《重返青春》;电视剧《女神蒙上眼》......

艺术要闻

楷书进步缓慢的原因是什么?

旅游要闻

请到广东过大年!新春登广州塔,赢开年好礼

军事要闻

特朗普:若美伊谈判失败 或再派一支航母打击群

无障碍浏览 进入关怀版