网易首页 > 网易号 > 正文 申请入驻

AI自己写代码做科研还跑赢了前沿算法?清华团队开源Alchemy框架

0
分享至



本项目由清华大学人工智能学院李佳助理教授课题组完成,课题组主要研究方向是 AI Agent、智能化软件工程等,其中,李乐晖为项目的主要贡献者,主导了框架设计与核心开发;蔡立一参与了部分关键工作。项目已在 GitHub 开源。

AI 驱动的自动化科研正从概念走向真实系统。近期受到广泛关注的 FARS,以及 Karpathy 开源的 autoresearch,都在不同程度上展示了 AI Scientist 自动进行 AI 领域研究的可行性。

但真正限制自动化 AI 科研规模扩展的,不仅仅是「能否提出一个新想法」,同时「能否把这个想法稳定、高效、持续地跑起来」也同样重要。在现有系统中,科学发现过程与工程实现仍然高度耦合:AI Scientist 在进行算法创新之外,还不得不处理数据预处理、训练流程、资源调度、并发执行、评测协议等大量工程细节。结果是,宝贵的上下文窗口、推理预算与硬件资源,被浪费在非科研核心环节上,从而抑制了自动化科研真正应有的规模与效率。

在这一背景下,清华大学人工智能学院团队提出了Alchemy——一个面向自动化 AI 科研的标准化研究环境。它像一座为 AI Scientist 预先搭建好的「炼丹炉」,将复杂异构的 AI 工程统一接口,使 AI Scientist 可以从工程负担中抽身,专注于算法创新本身。

  • 代码开源:https://github.com/TsinghuaISE/Alchemy



研究背景与问题

随着大语言模型在代码生成、实验组织与科研文献理解等方面持续进步,LLM 驱动的自动化科研正在快速从概念验证走向真实系统。尤其在 AI for AI 方向,AI-Researcher、FARS、autoresearch 等一系列工作已经表明:AI Scientist 不仅能够生成算法原型,还能够结合实验反馈进行初步的迭代优化。

然而,前沿 AI 研究作为一项长周期、高度依赖资源的复杂科学活动,不仅依赖算法创新,还依赖数据处理、训练流程、评测协议、资源调度、并发执行等工程环节,同样决定了科研探索能否真正推进。这也带来了当前自动化 AI 科研系统的一个核心矛盾:AI Scientist 已经开始具备「提出方法」的能力,却仍缺乏「高效开展大规模实验」的基础设施支撑。在现有系统中,工程实现与科学发现往往仍然紧密耦合,AI Scientist 不得不在生成算法之外,同时处理大量实验细节。结果是,大量上下文预算、推理能力与计算资源被消耗在非核心科研环节中,限制了自动化科研的规模与效率。

如何释放 AI Scientist 的科研能力?近期爆火的工作(如 autoresearch)尝试优化自动化科研系统的工程组件,但仍存在明显局限:

  • 领域受限:局限于特定领域与单一任务,难以持续集成多领域、跨任务的大规模自动化科研场景。
  • 基础设施薄弱:异构算力调度、高并发控制等关键工程需求被普遍忽略,实验规模的扩展受到严重制约。

针对以上挑战,清华大学人工智能学院团队提出了 Alchemy——一个面向自动化 AI 科研的标准化研究环境。Alchemy 预先搭建好科研实验所需的全部工程基础设施,AI Scientist 只需投入算法实现(一个.py文件)及其超参数(一个.yaml文件),即可驱动完整的科研实验。同时,工程基础设施与任务管线的分层设计,使其天然支持新领域、新任务的持续集成。下面具体介绍 Alchemy 的关键特性。

框架特性

Alchemy 的设计围绕一个核心问题:如何让 AI Scientist 完全摆脱工程负担,专注于算法创新?为此,Alchemy 进行了以下针对性设计:

  • 标准化实验接口:Alchemy 为所有 AI 研究任务提供统一的实验接口,屏蔽不同任务之间的工程差异,和任务内如数据加载、评测、资源调度等工程细节。AI Scientist 只需提交算法实现(一个.py文件)和超参数配置(一个.yaml文件),即可运行完整实验。
  • 可持续扩展的任务体系:框架与任务解耦,新领域或新任务只需新增实验管线即可接入。目前已覆盖推荐系统、时间序列与图学习 3 个领域,16 个任务。
  • 异构算力统一执行:不同用户的算力环境差异巨大,从单机 GPU 到多节点 HPC 集群不等。Alchemy 通过可插拔执行器统一调度方式,使 AI Scientist 无需关心实验具体运行在哪台机器或哪张 GPU 上。
  • 面向大规模实验的并发控制:Alchemy 支持多任务、多算法、多超参数和多数据集的高并发实验,并提供实时进度跟踪与结果可视化。系统还可根据实验反馈自动淘汰表现不佳的算法,将算力集中到更具潜力的探索方向。

开箱即用,自动研究

以多模态推荐任务为例,下面展示 Alchemy 的易用性与自动化科研能力。

用户首先可以在名为domain_knowledge的 Markdown 文档中,为 AI Scientist 提供任务相关的领域知识,提升其科学发现的能力。但是不用担心,即使用户没有手动撰写任何领域知识,Alchemy 依然可以正常运行。在大规模实验推进过程中,AI Scientist 会结合实验反馈,逐步归纳并沉淀出完成该任务所需的关键领域知识。

下面展示的,便是 Alchemy 在连续生成 100 个推荐算法之后自动总结出的领域知识。可以看到,这些总结并非停留在表层描述,而是已经呈现出相当有价值的研究洞察。



除了领域知识之外,用户还需要为 Alchemy 提供一个 Seed Baseline,作为 AI Scientist 进行科学假设生成与方法演化的起点。这个 Seed Baseline 可以是人类研究者提出的前沿算法。在本例中,我们选择的是 AAAI 2025 的工作《Mind Individual Information! Principal Graph Learning for Multimedia Recommendation》(PGL)。为了进一步降低使用门槛,Alchemy 已经为现有支持的所有任务预先配置了 Seed Baseline,并且每个任务至少提供 3 个可选 Seed Baseline,方便用户开箱即用。



在此基础上,AI Scientist 会围绕当前算法不断开展自动化科研循环:提出科学假设,生成新算法实现,并依据实验反馈持续迭代优化。

如下图所示,AI Scientist 首先提出了这样一个科研假设:在主图传播过程中引入模态感知的边权重重加权机制,使交互图中的消息传播强度能够根据物品间的模态相似性动态调整,从而在协同信号传播过程中显式融入模态语义信息。

随后,AI Scientist 基于这一假设生成了算法实现。起初,这份代码尚不能直接运行:由于对超参数加载的数据格式理解不准确,其生成的.yaml文件出现问题。Alchemy 则会将具体、可执行的报错信息反馈给 AI Scientist,使其进行多轮迭代,修正实现细节。系统最终生成了可正常运行的代码实现。





接下来,在长达一天的持续实验过程中,Alchemy 中的 AI Scientist 在完全无人类干预的条件下,依托实验反馈不断调整实现、修正设计并优化性能。令人惊喜的是,最终得到的模型成功超越了初始的 Seed Baseline——PGL。





进一步分析可以发现,这一改进的关键在于:AI Scientist 为 PGL 引入了模态感知的用户—物品边重加权机制。其核心思想是,不改变 PGL 的训练机制,而是在推理时加上一个轻量的 Modality Aware Graph Adaption 机制,让那些与用户历史偏好在模态空间中更一致的边,将被赋予更强的传播权重,从而更充分地放大模态语义信息与 User-Item 协同信息之间的关联作用。







特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本等了一天一夜,还是见不到中方,高市早苗决心派百人团访华

日本等了一天一夜,还是见不到中方,高市早苗决心派百人团访华

共工之锚
2026-05-06 23:21:31
比亚迪被“卡脖子”实锤!宋Ultra大爆,61240台订单仅交付12000

比亚迪被“卡脖子”实锤!宋Ultra大爆,61240台订单仅交付12000

侃故事的阿庆
2026-05-07 02:01:57
桥水基金创始人达利欧发出最新警告:未来两年将是“特别危险的时期”

桥水基金创始人达利欧发出最新警告:未来两年将是“特别危险的时期”

识局Insight
2026-05-06 20:35:57
从新霍尔丁到非卖品!阿森纳 5000 万弃将逆袭,一战封神晋级决赛

从新霍尔丁到非卖品!阿森纳 5000 万弃将逆袭,一战封神晋级决赛

澜归序
2026-05-07 06:10:04
哈登又拉胯了!美记:又一场典型的哈登季后赛表现,三分7投1中!

哈登又拉胯了!美记:又一场典型的哈登季后赛表现,三分7投1中!

爱体育
2026-05-06 23:20:50
男人如何去刺激女人的荷尔蒙?方法很简单,不信可以试试!

男人如何去刺激女人的荷尔蒙?方法很简单,不信可以试试!

朗威谈星座
2026-05-07 08:53:28
以军:打死哈马德

以军:打死哈马德

上观新闻
2026-05-05 20:14:03
35岁离婚,因嗜酒家财散尽,50岁中年又丧女,如今66岁腾格尔如何

35岁离婚,因嗜酒家财散尽,50岁中年又丧女,如今66岁腾格尔如何

白面书誏
2026-04-25 15:13:17
中超无罚分积分榜:成都居首,申花次席,海牛升至第6

中超无罚分积分榜:成都居首,申花次席,海牛升至第6

懂球帝
2026-05-06 23:17:38
瑞幸“报复式”官宣新代言人,库迪:好脏的商战!

瑞幸“报复式”官宣新代言人,库迪:好脏的商战!

老吴教育课堂
2026-05-06 15:23:53
谢娜演唱会半个娱乐圈都挽救不了,被网友吐槽像大型幼儿园汇演!

谢娜演唱会半个娱乐圈都挽救不了,被网友吐槽像大型幼儿园汇演!

TVB的四小花
2026-05-07 09:19:34
陈行甲和俞敏洪,一场各怀鬼胎的商业同谋

陈行甲和俞敏洪,一场各怀鬼胎的商业同谋

说故事的阿袭
2026-05-07 06:42:43
谢娜演唱会被评论:像一群人哄着谢娜玩过家家!

谢娜演唱会被评论:像一群人哄着谢娜玩过家家!

默默有话说
2026-05-06 11:22:01
20多名美议员施压特朗普,要求承认以色列拥核

20多名美议员施压特朗普,要求承认以色列拥核

参考消息
2026-05-06 19:11:33
印尼倒向日本,让日本人很高兴,但是走得让中国有点心寒

印尼倒向日本,让日本人很高兴,但是走得让中国有点心寒

史智文道
2026-05-06 19:48:00
苦脸小花被平台封杀了?张子枫手臂伤疤?吴昕踩谢娜?乔欣要退圈了?姨太问答

苦脸小花被平台封杀了?张子枫手臂伤疤?吴昕踩谢娜?乔欣要退圈了?姨太问答

毒舌扒姨太
2026-05-06 22:27:39
一场1-1,让西甲赢麻了!基本锁定欧冠金靴+5个欧冠直通名额在望

一场1-1,让西甲赢麻了!基本锁定欧冠金靴+5个欧冠直通名额在望

阿晞体育
2026-05-07 07:55:20
这才是铁哥们!还清中国81亿欠债,赠百亿大礼,西方各国都眼红

这才是铁哥们!还清中国81亿欠债,赠百亿大礼,西方各国都眼红

老范谈史
2026-05-06 03:12:16
成人片单!5部“莫妮卡”大尺度电影,每一部拍的都很大胆

成人片单!5部“莫妮卡”大尺度电影,每一部拍的都很大胆

得心电影
2026-05-07 09:37:46
别再被抗战剧骗了!一名日军摄影师,拍下真正的“鬼子进村”照片

别再被抗战剧骗了!一名日军摄影师,拍下真正的“鬼子进村”照片

历史甄有趣
2026-05-04 08:10:22
2026-05-07 10:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12930文章数 142643关注度
往期回顾 全部

科技要闻

三星停止在中国大陆销售家电!知情人回应

头条要闻

牛弹琴:一位特殊的客人来到北京 12个细节很意味深长

头条要闻

牛弹琴:一位特殊的客人来到北京 12个细节很意味深长

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

谢娜演唱会暗藏惊喜 何炅瞒天过海现身

财经要闻

特朗普:美伊“很有可能”达成协议

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

亲子
数码
本地
公开课
军事航空

亲子要闻

自私的娃

数码要闻

AMD发布26.5.1驱动更新:支持《识质存在》游戏

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

实施不到48小时 特朗普紧急喊停"霍尔木兹自由计划"

无障碍浏览 进入关怀版