网易首页 > 网易号 > 正文 申请入驻

首个独立完成科研循环的AI系统问世,顶人类科学家六个月工作量

0
分享至

此前,我们曾报道过这家由前谷歌 CEO Eric Schmidt 支持的非营利组织 Future House 所推出的 AI 科学家 Robin。该系统不仅能够自主完成从假设提出、实验设计到数据分析等关键科研环节,还曾为一个复杂眼疾发现了新的潜在药物,在当时引起了相当广泛的关注。


(来源:FutureHouse)

几个月后,这家非营利研究机构及其新拆分的商业实体 Edison Scientific 又发布了一套更强大的 AI 科学家系统 Kosmos。这个系统在单次运行中可以持续工作 12 至 48 小时,完成相当于人类科研团队数月才能完成的工作量,且其产出的发现中有近 80% 经独立专家验证为准确。

Kosmos 的独特之处在于,它是首个能够真正闭环执行“文献检索-假设生成-数据分析”完整科研循环的系统,且能够在数百次迭代中保持逻辑连贯性。在此之前,包括 Sakana 的 AI Scientist 和谷歌的 AI co-scientist 在内的同类系统,要么局限于特定领域,要么缺乏探索性数据分析能力,要么在长链推理中容易失控。

FutureHouse 今年 5 月推出 AI 科学家平台后,商业需求远超预期。团队披露,六家全球前十大制药公司纷纷主动联系寻求合作,大量生物技术公司请求提高使用限额。这种需求压力促使团队做出了战略调整:将商业化部分拆分成 Edison Scientific,专注产品开发和市场服务,而 FutureHouse 继续承担无法获得其他资金支持的基础研究。

此次推出的 Kosmos 就已经正式商品化,其标准使用费用为每次运行 200 美元左右,这个价格对应的是系统 12 到 48 小时的完整研究周期。不过 Edison Scientific 的商业策略相对克制。公司承诺保留学术用户的免费额度,只对需要更高调用频率或额外功能的重度用户收费。

Kosmos 的核心在于它采用的“世界模型”(world model)架构。这个概念我们已经耳熟能详,但在科研自动化场景中的应用并不多见。团队称其为系统的“大脑”,它持续整合所有代理发现的信息,识别模式和知识空缺,并战略性地决定下一步调查方向。与之前的系统相比,这种架构使 Kosmos 能够运行的迭代次数达到了现有系统的八倍。


图丨Kosmos 的工作流与性能表现(来源:Edison Scientific)

具体而言,Kosmos 在每个周期中最多启动十个文献搜索和数据分析任务的并行实例,然后将任务输出的摘要更新到世界模型中。随后系统查询世界模型,提出下一轮周期需要完成的任务。这种上下文管理策略让 Kosmos 能够同时探索多条研究路径,平均每次运行会执行 166 次数据分析代理展开和 36 次文献综述代理展开。相比之下,该团队此前发布的 Robin 系统只能生成约 4,310 行代码,Kosmos 的代码生成量是其 9.8 倍。

另外,Kosmos 的报告还具有可追溯性。Kosmos 生成的每份科学报告中,每一个论断都直接链接到产生它的数据分析代码或引用的文献来源。不仅便于验证,也让科学家能够理解 AI 的推理路径。

为了验证这套系统的实用性,研究团队与多个学术机构合作,在七个不同科学领域测试了 Kosmos 的表现。其中三项发现成功复现了尚未发表或预印本中的研究结果,另外四项则做出了新颖贡献。


图丨Kosmos 的七项发现(来源:Edison Scientific)

比如在代谢组学案例中,Kosmos 拿到的是关于小鼠大脑低温保护机制的 LC-MS(液相色谱-质谱)数据。人类研究者此前已发现激活特定神经元能诱导低温并产生神经保护效应,但具体代谢通路尚不明确。

Kosmos 在分析中识别出核苷酸代谢通路受影响最显著,进一步推断这是因为核苷酸挽救途径(nucleotide salvage pathway)被激活——前体分子减少、磷酸化产物增加,这种模式提示细胞正在用更节能的方式回收利用核苷酸,而非从头合成。这一结论与合作实验室的未发表手稿高度一致,连关键代谢物的变化方向和幅度都几乎吻合。

在材料科学领域,Kosmos 处理的是钙钛矿太阳能电池制备过程中的环境参数数据。这类电池的性能对制备环境极为敏感,温度、湿度、溶剂蒸气压的微小波动都可能导致器件失效。

Kosmos 自主建立了一套“机制排名评分”(Mechanism Rank Score)体系,综合考虑统计显著性、多层数据一致性和实验证据支持度,最终指出热退火阶段的绝对湿度是决定性因素,表现出“致命过滤器”特征——超过某个阈值后器件几乎必然失效。有意思的是,Kosmos 还发现短路电流密度与旋涂过程中的 DMF(二甲基甲酰胺)溶剂分压呈线性负相关,这一关系此前未被人类研究者注意到,但后来得到了独立验证。


(来源:arXiv)

不过,Kosmos 也有失手的时候。在对人类基因组数据的分析中, 它试图用孟德尔随机化方法找出 2 型糖尿病的保护性蛋白, 过程中共定位分析因数据格式问题失败。Kosmos 没有修复流程, 而是转向了精细定位(fine-mapping)分析, 最终仍然锁定了 SOD2(超氧化物歧化酶 2)作为候选靶点。这种“绕路”策略体现了系统的适应性,但也暴露出它在遇到意外情况时的处理能力仍不够稳健。

独立评估显示,Kosmos 报告中基于数据分析的陈述有 85.5% 准确,文献综述类陈述准确率为 82.1%,但需要跨领域综合推理的解释性陈述只有 57.9% 准确。这个数字并不令人惊讶,即使对人类科学家而言,从相关性推导因果关系、从多个线索构建机制假说,也是最容易出错的环节。

团队在论文中坦承,Kosmos 倾向于发明一些“非正统的定量指标”,这些指标虽然统计上说得通,但概念上可能晦涩难懂。它也常把统计显著性等同于科学价值,对实验结果过度自信。

七位合作学者评估后认为,一次 20 周期的 Kosmos 运行产出的有价值发现数量随运行时间线性增长,平均相当于 6.2 个月的专家工作量——这比团队自己估算的 4.1 个月更乐观。

但值得注意的是,这些学者同时指出,识别哪些发现真正有意义仍然极度依赖人类专家判断。一份 Kosmos 报告通常包含 3 到 4 个发现叙述,每个叙述基于 8 到 9 条代理轨迹,包含约 25 条具体论断。逐一验证这些论断的准确性、新颖性和重要性,本身就是一项耗时的工作。

这也解释了为什么 Edison Scientific 强调“科学家在环”(scientist-in-the-loop)的工作模式。Kosmos 的设计初衷不是取代人类研究者,而是承担繁重的数据探索和文献梳理工作,让人类能够把精力集中在提出问题、评估结果和规划后续实验上。

团队发现,数据质量对 Kosmos 表现影响极大——格式规范、标注清晰、经过预处理的数据集能让系统更快收敛到有意义的发现,而混乱的原始数据往往导致系统在技术细节上空转。这提示 Kosmos 目前更适合处理已经经过初步整理的数据,而不是直接面对测序仪输出的海量原始文件。

目前 Kosmos 的局限性也相当明显。它只能处理约 5GB 以下的数据集,无法自主访问公开数据库进行对照验证,对图像或原始测序文件的处理能力较弱。更关键的问题在于,多次独立运行未必能收敛到相同的发现,这种随机性在探索性研究中可能是优势,但在需要稳定可靠结论的场景下就成了隐患。

研究目标的措辞微调也会显著影响系统的探索方向,这提示用户需要反复迭代提示语,才能让 Kosmos 朝着预期方向推进。而且当前版本不支持中途干预,科学家无法在运行过程中调整策略或提供反馈,只能等整个流程结束后查看结果。

尽管如此,Kosmos 代表的方向已经比此前的 AI 科学家尝试走得更远。Sakana AI 的 AI Scientist 局限于机器学习领域,Google 的 AI co-scientist 不进行实际实验,而 Virtual Lab 虽然成功设计了 SARS-CoV-2 纳米抗体,但缺乏 Kosmos 这样的通用探索能力。从代谢组学到统计遗传学,从材料科学到神经科学,Kosmos 展示出跨领域迁移的潜力。如果未来版本能够接入实验室自动化设备,形成“提出假设-设计实验-执行实验-分析数据”的完整闭环,那么科学发现的速度可能迎来量级跃迁。

One more thing,团队在测试中发现了一个重要规律:当让 Kosmos 运行更长时间、执行更多研究循环时,它产出的有价值发现数量呈线性增长。具体来说,如果一次 12 小时的运行相当于人类 6 个月的工作量,那么 24 小时的运行就能完成 12 个月的工作。这种工作量的增长是稳定的、可预测的。在测试中,这种线性关系一直延续到 20 个研究循环。

这一发现被团队称为科研领域的“推理时扩展定律”(inference-time scaling law)。不过,团队也强调,Kosmos 运行时间越长,越容易陷入所谓的“兔子洞”,即追逐那些统计上显著但科学上毫无意义的相关性,或是在没有前景的方向上越走越远。他预计,如果真的把这种扩展推到逻辑极限,最终可能会出现反转:系统产出的价值不再增长,甚至开始下降。

这个问题的根源在于底层语言模型的判断能力。当研究深度超过一定阈值,模型需要更强的能力来区分哪些线索值得追踪,哪些应该果断放弃。为此,Edison Scientific 正在积极改进底层模型,试图让 Kosmos 在更长的运行时间里依然保持科学判断力。这也意味着,目前的 Kosmos 更适合作为一种“快速探索工具”,在 12 到 48 小时的窗口内发挥最大效用,而非无限延长运行时间。

参考资料:

1.https://arxiv.org/abs/2511.02824

2.https://edisonscientific.com/articles/announcing-kosmos

3.https://edisonscientific.com/articles/announcing-edison-scientific

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
荷兰正式宣布!荷兰管制范围扩大,敏感领域的新合作都一刀切禁止

荷兰正式宣布!荷兰管制范围扩大,敏感领域的新合作都一刀切禁止

百态人间
2025-11-04 16:00:18
还会跳下去吗?全红婵愣了好一会:再说吧,应该吧,现在还不知道

还会跳下去吗?全红婵愣了好一会:再说吧,应该吧,现在还不知道

风过乡
2025-11-06 22:09:03
11月再穷也能富,逆袭翻身,这 3 大生肖,转运致富

11月再穷也能富,逆袭翻身,这 3 大生肖,转运致富

人閒情事
2025-11-06 16:28:25
近4场独造8球!巴萨超新星强势崛起 奥尔莫沦为铁板凳

近4场独造8球!巴萨超新星强势崛起 奥尔莫沦为铁板凳

球事百科吖
2025-11-06 18:11:12
张玉宁半场闪击!轰亚2处子球,反超巴坎布,独居队史射手榜次席

张玉宁半场闪击!轰亚2处子球,反超巴坎布,独居队史射手榜次席

奥拜尔
2025-11-06 21:23:36
克宫呼吁北约倾听普京发言以理解俄方立场

克宫呼吁北约倾听普京发言以理解俄方立场

国际在线
2025-11-06 23:25:07
李云迪再陷桃色风波,女主照片被扒疑似有两人视频流出

李云迪再陷桃色风波,女主照片被扒疑似有两人视频流出

挪威森林
2025-11-02 12:56:16
江苏电力回应张凌赫曾想求职:公子可愿至吾处体验一日

江苏电力回应张凌赫曾想求职:公子可愿至吾处体验一日

趣味萌宠的日常
2025-11-06 10:42:04
戴口罩的美女清纯靓丽,白色V领T恤搭粉色瑜伽裤,时尚清新有朝气

戴口罩的美女清纯靓丽,白色V领T恤搭粉色瑜伽裤,时尚清新有朝气

小乔古装汉服
2025-11-05 14:31:17
老婆出轨后,对方的妻子找到我,你老婆跟我老公好上了

老婆出轨后,对方的妻子找到我,你老婆跟我老公好上了

诡谲怪谈
2025-11-04 21:09:44
立冬不补阳,一年白忙,今日立冬,别忘吃这4样,清补护阳增免疫

立冬不补阳,一年白忙,今日立冬,别忘吃这4样,清补护阳增免疫

小茉莉美食记
2025-11-07 01:40:03
离开的何止是郑智化

离开的何止是郑智化

老唐有话说
2025-11-04 18:37:23
浙大才子周一超被执行注射死刑,被按执行床时,他却突然号啕大哭

浙大才子周一超被执行注射死刑,被按执行床时,他却突然号啕大哭

红豆讲堂
2024-10-21 09:30:24
势危!愈万军队被包围,俄罗斯拿下战略重镇红军城会怎样?

势危!愈万军队被包围,俄罗斯拿下战略重镇红军城会怎样?

文雅笔墨
2025-11-07 00:24:00
内陆首个国家级新区升格为行政区,两江新区坐拥36家上市公司,位居重庆第一

内陆首个国家级新区升格为行政区,两江新区坐拥36家上市公司,位居重庆第一

时代周报
2025-11-06 22:20:06
不识时务!郑丽文终于露出了狐狸尾巴!统一能寄望国民党吗?

不识时务!郑丽文终于露出了狐狸尾巴!统一能寄望国民党吗?

阿柒的讯
2025-11-05 22:05:25
女子在诊所拍下感人一幕,妻子输液时,像个孩子一样靠在丈夫怀里!

女子在诊所拍下感人一幕,妻子输液时,像个孩子一样靠在丈夫怀里!

张晓磊
2025-11-03 09:51:21
世界突然醒悟,中国打越南时的军事实力就是世界的顶流了!

世界突然醒悟,中国打越南时的军事实力就是世界的顶流了!

百态人间
2025-11-03 16:34:06
网友反映杭州一学校门口管理问题,教育部门:第一时间开展调查,要求立即整改

网友反映杭州一学校门口管理问题,教育部门:第一时间开展调查,要求立即整改

FM93浙江交通之声
2025-11-06 22:53:28
纽约剧变!34岁穆斯林市长崛起,中产与华人票仓集体失声

纽约剧变!34岁穆斯林市长崛起,中产与华人票仓集体失声

华人生活网
2025-11-06 03:16:42
2025-11-07 04:16:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15827文章数 514269关注度
往期回顾 全部

科技要闻

小鹏机器人里藏真人?何小鹏发一镜到底视频

头条要闻

美参议员提议:政府不“开门”国会议员就停薪

头条要闻

美参议员提议:政府不“开门”国会议员就停薪

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

“黑料缠身”的白百何 谁给她的勇气?

财经要闻

南银法巴加速发展背后:资金饥渴症待解

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

本地
手机
时尚
旅游
艺术

本地新闻

这届干饭人,已经把博物馆吃成了食堂

手机要闻

荣耀500系列再次被确认:骁龙8s Gen4+8000mAh,2亿主摄也在内!

大衣别这么穿,显黑又显胖!

旅游要闻

11月6日最佳情报|济南郎茂山日出美如画,三媳妇山奇峰峻美!

艺术要闻

惊人!一幅画拍出3.45亿,竟然他早已去世62年!真相令人震惊!

无障碍浏览 进入关怀版