★置顶zzllrr小乐公众号(主页右上角)数学科普不迷路!
Denario是由熨斗研究所、剑桥大学、巴塞罗那自治大学等机构的科学家共同开发的一款新工具,利用大语言模型来帮助科学家完成从提出新假设到总结研究结果等各项任务。该团队希望 Denario 能够使研究过程更快、更高效、更具跨学科性。
![]()
图源:Lisa Feng / Simons Foundation
作者:Jane Beaufore(科学作家)2025-11-4
译者:zzllrr小乐(数学科普公众号)2025-11-5
人工智能正迅速成为许多领域的必备工具,科学领域也不例外。人工智能可以辅助科学过程的许多方面,例如 ChatGPT 等工具可以帮助可视化数据或撰写摘要。但这些工具通常一次只能处理科学过程中的一个环节。
借助一款名为 Denario https://github.com/AstroPilot-AI/Denario 的新工具, 熨斗研究所的科学家们及其合作者推出了一种新型的“科学助手”:它能够整合现有论文、提出新的研究问题、分析和解释数据,并撰写论文。在 arXiv.org 上发表的一篇预印本 https://arxiv.org/abs/2510.26887 中,开发者们对这款新工具进行了概述。他们认为,Denario 有望加速和拓展科学进程,使科学家能够将其应用于他们认为最有帮助的科学流程的各个方面,并快速发现和测试新的研究方法。
“有时候,最有趣的是想法本身,因为它可能是一个尚未被探索过的新想法,” Francisco Villaescusa-Navarro(弗朗西斯科·维拉埃斯库萨-纳瓦罗) 说道,他是熨斗研究所计算天体物理中心的研究科学家,也是 Denario 的主要开发者之一。“有时候,它是一种从未应用于特定数据集的新方法。Denario 可以通过多种方式帮助我们拓展思维,并为我们指明新的方向。”
重要的是,该团队强调,Denario 并不能取代科学家。目前版本的 Denario 存在重大缺陷。只有大约十分之一的输出结果能提供有价值的见解——而且在某些情况下,Denario 还会捏造数据。
“我们认为这个工具是辅助科研人员的,可以帮助他们简化科研流程,而不是取代真正的科学家,”维拉埃斯库萨-纳瓦罗说道。他表示,人类仍然是科研过程中不可或缺的一部分,Denario的研究成果也必须经过仔细审查。
Denario 项目由 Villaescusa-Navarro 牵头,剑桥大学的 Boris Bolliet 博士和巴塞罗那自治大学的 Pablo Villanueva Domingo 博士也参与其中。完整的作者名单(他们的专业领域涵盖天体物理学、生物学、生物物理学、化学、材料科学、神经科学、数学、机器学习、量子物理学和哲学等)可在预印本中找到。
多层次人工智能助手
几十年来,研究人员一直致力于将机器学习应用于科学领域。随着 ChatGPT、Google Gemini 和 Anthropic 的 Claude 等大语言模型的最新进展,Denario 团队看到了在研究过程的每个阶段测试这些工具有效性的机会。
Bolliet解释说,Denario 的关键在于它采用了许多人工智能“代理”(智能体 agent),每个代理负责不同的任务。Denario 可以完成从头到尾的整个研究流程,但各个代理也可以单独使用。“我们为 Denario 设计了模块化架构,这样用户就可以选择最适合他们研究的组件,无论是编码、探索研究思路、总结结果还是其他任务,”Bolliet说道。
![]()
上图展示了 Denario 的模块(代理,智能体)如何协同工作以产生输出。改编自 arXiv:2510.26887
要完整使用 Denario,科学家需要上传数据集以及描述数据集和预期功能的说明文本。第一组智能体负责开发和完善处理数据集的最佳方案,最终生成研究项目构想。接下来,第二组智能体会搜索相关主题的现有研究文献,确保科学家的项目构想具有创新性,并借鉴了前人的研究成果。
项目构想完善后,方法论和规划代理会提出数据分析方案。下一组代理随后会执行这些方案。这通过团队开发的名为CMBAgenthttps://github.com/CMBAgents/cmbagent 的多代理系统实现,该系统作为 Denario 的研究分析后端。这些代理负责编写、调试和运行代码,并对结果进行解释。最后,编写和审查模块会生成并修改每个模块的输出和发现的摘要。
所有代理都协同工作,使之成为可能,”Villanueva Domingo说道,并强调科学家可以轻松检查每个模块的工作情况,如果需要,还可以单独运行代理。
迄今为止,Denario 已在涵盖天体物理学、生物学、生物物理学、生物医学信息学、化学、材料科学、数学物理学、医学、神经科学和行星科学等 12 个不同学科的数据集上进行了数百次端到端测试。Villaescusa-Navarro 承认,其大部分输出结果都不值得进一步研究。大多数结果在 Denario 生成结果的学科领域专家评审后被认为不适用。然而,约有 10% 的输出结果提出了引人入胜的问题或发现。
![]()
“我认为 Denario 在尝试各种想法方面尤其有用,”Villaescusa-Navarro 说道。“你可以查看每个输出结果中的不同研究文档,并判断哪些内容引人入胜,值得进一步探索。” 由于 Denario 能够整合多个学科的信息,团队希望它能够发现一些即使是某个特定领域的专家科学家也未必会想到的新研究问题。
“Denario可以从其他领域汲取灵感,而这些领域可能是科学家不太熟悉甚至从未考虑过的,”Villanueva Domingo说。“这种跨学科性质非常令人兴奋。”
例如,Denario 在疟疾方面的研究成果展现了他对疟疾生物学的专家级知识,并针对尚未解答的研究问题提出了几种创造性的方法。
针对一个天体物理数据集,Denario 应用了一种名为张量列(tensor trains)的数据压缩数学方法。这种方法在量子物理学中应用广泛,但在天体物理学领域却鲜为人知。Denario 利用这些张量列以及机器学习技术,追踪了暗物质晕(星系所在的微环境)的时间演化。Villaescusa-Navarro 表示,这是一种新方法,未来有望应用于宇宙学和天体物理学中的许多其他问题。
该团队还预计,Denario 将帮助科学家们重新获得他们最宝贵的资源:时间。
“我希望 Denario 能够通过为研究人员提供工具来加速科学发展,帮助他们减少在诸如浏览 arXiv、格式化图像、总结分析等琐碎任务上花费的时间,从而有更多时间进行深入的创造性思考,”Bolliet 说道。
Denario的未来
在下一版本中,科学家们的目标是提高 Denario 的效率,并帮助它产生更高质量的工作成果(包括自动识别和剔除低质量的输出)。
“或许在未来几年内,我们可以开发出另一个代理,让 Denario 可以用来分析想法并进行筛选,从而不断改进好的想法,” Villanueva Domingo 说。
像 Denario 这样的工具仍然面临挑战。从写作角度来看,它生成的一些最终报告未能充分传达结果中的不确定性。此外,尽管 Denario 能够熟练地撰写以往研究的内容,但在引用以往研究和清晰阐述其方法方面却存在不足。
Villaescusa-Navarro 也意识到其中存在技术和伦理方面的考量,包括 Denario 可能利用“幻觉”(生成式人工智能的产物,其中可能包含误导性或虚假信息)的风险,以及版权和作者身份方面的问题。
“幻觉始终是一个令人担忧的问题,”Francisco Villaescusa-Navarro说道。“我们使用一种名为 Perplexity 的模型来确保Denario引用的论文确实存在,但即便如此,幻觉仍然可能通过代码混入其中。”例如,在工具生成虚假数据后,研究人员不得不添加一行文本,指示Denario不要捏造“虚拟数据”。
该团队期待就如何更好地在科学研究中利用 Denario 及类似项目,以及如何防止潜在的滥用展开公开讨论。他们还强调,Denario 的成功离不开学术界和产业界众多合作者的鼎力支持。
“能与来自世界各地不同领域的众多优秀人才共事,真是太棒了,”Francisco Villaescusa-Navarro说道。“即使仅仅在熨斗研究所内部,我们也收到了来自各个中心成员的意见。创建这样一个社群真是令人赞叹。”
参考资料
https://www.simonsfoundation.org/2025/11/04/meet-denario-an-ai-assistant-for-every-step-of-the-scientific-process/
https://github.com/AstroPilot-AI/Denario
https://arxiv.org/abs/2510.26887
https://github.com/CMBAgents/cmbagent
小乐数学科普近期文章
出版社和作家自荐通道
小乐数学科普荐书
·开放 · 友好 · 多元 · 普适 · 守拙·![]()
让数学
更加
易学易练
易教易研
易赏易玩
易见易得
易传易及
欢迎评论、点赞、在看、在听
收藏、分享、转载、投稿
查看原始文章出处
点击zzllrr小乐
公众号主页
右上角
置顶加星★
数学科普不迷路!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.