![]()
撰文丨王聪
编辑丨王多鱼
排版丨水成文
如果你是一名合成生物学家,想设计一株能高效生产青蒿素的酵母,传统流程可能是这样:在实验室里一轮轮敲除基因、调整培养条件,再测代谢产物的产量——这个过程往往要花上几个月甚至几年。但如果有一个“数字酵母”,能在电脑里先模拟出所有基因编辑方案的代谢结果,把最优解直接推给你,研发效率会提升多少?
2026 年 7 月 1 日,西湖大学郭天南教授联合来自北京大学、上海人工智能实验室、复旦大学、斯坦福大学、苏黎世联邦理工学院、多伦多大学等机构的数十个研究团队,在Nature期刊发表了题为:Towards the construction of a virtual yeast 的前瞻性评述文章,提出了“虚拟酵母”(Virtual Yeast)计划,旨在使用 AI 打造全球首个可预测、可实验验证的虚拟真核细胞,这不是简单的细胞动画,而是一个能模拟酵母从基因表达到代谢产物全链条行为的 AI 系统。
作为一种由 AI 驱动的智能体,虚拟酵母通过整合多模态生物数据、机制推理和主动实验,以酿酒酵母作为遗传可操作且数据丰富的模型系统,来模拟真核细胞的行为。该团队将细胞复杂性分解为八个以功能为中心的模块,涵盖遗传、代谢和结构系统,每个模块均以特定领域的 AI 工具实现,并通过基于大语言模型的协调层进行统一调度。该系统建立在三大数据支柱之上——机制知识、亚细胞结构和动态状态,将表示学习与生成建模集成于一个闭环学习流程中,能够自主设计并执行实验。
虚拟酵母既是一个概念平台,也是一个操作平台,可用于优化生物合成通路,支持在多种细胞过程中生成和优先排序假设,并加速靶点发现。通过将生物真实性与自主 AI 推理相结合,虚拟酵母为构建虚拟真核细胞和推动合成生物学发展建立了一个可推广的蓝图。
![]()
为什么选择酵母?
提到模式生物,很多人会想到大肠杆菌,但其作为原核细胞,与更复杂的真核生物相差太大。而酿酒酵母(Saccharomyces cerevisiae)才是真核生物的“黄金模型”。
酵母,是真核生物里的“小个子”,直径只有 3-10 微米,却拥有完整的真核细胞结构:细胞核、线粒体、内质网、高尔基体这些真核细胞特有的“器官”一个不少;它的遗传工具箱极其丰富:覆盖所有非必需基因的敲除文库、全基因组 GFP 标签库、百万级规模的遗传互作图谱,几乎把“基因怎么影响性状”的关系摸透了八九成;更关键的是,酵母和人类的核心细胞过程高度保守——细胞周期调控、DNA 修复、囊泡运输这些基础逻辑,和人体细胞是同根的。
换句话说,把酵母的数字模型做通了,这套方法就能平移到更复杂的真核细胞研究里,甚至为癌症机制解析、药物筛选打下基础。
虚拟酵母不是“数字标本”,是八个功能模块组成的AI智能体
传统细胞建模的思路,往往是把所有分子反应塞进一个巨大的数学方程里,不仅计算量爆炸,还很难适配不同的研究需求。这次的虚拟酵母项目换了个思路:按细胞功能拆成八个独立的 AI 模块,再使用大语言模型(LLM)当“总指挥”协调它们工作。
这八个模块刚好对应酵母的核心生命活动——
膜系统模块:管内膜系统结构、物质运输和脂质合成;
遗传中枢模块:负责染色质结构、基因组稳定性、转录调控和细胞周期推进;
线粒体能量模块:主导氧化磷酸化、氧化还原平衡和衰老相关代谢;
胞质代谢模块:覆盖中心碳代谢、氨基酸合成、营养感知和储能;
生物合成网络模块:负责蛋白质合成、折叠、翻译后修饰和降解;
细胞骨架模块:整合微丝、微管、细胞壁重塑,支撑细胞形态发生和物质运输;
应激处理模块:管理应激颗粒、P-小体、氧化应激解毒,应对环境变化;
降解机器模块:执行蛋白酶体和液泡降解,回收细胞组分。
每个模块都是专门的 AI 工具:比如代谢模块会用变分自编码器学习蛋白组和代谢组的关系,用扩散模型预测不同扰动下的代谢流变化;遗传模块会微调 Evo3 这类基因组基础模型,专门识别酵母特有的调控语法。而大语言模型就像“项目经理”,接到用户的问题(比如“敲除某个基因后酵母能不能在高温下存活?”),会自动判断该调用哪个模块,甚至组合多个模块的计算结果,给出综合预测。
![]()
虚拟酵母 AI 智能体的概念路线图
为了保证预测不“胡编乱造”,系统还加了三重约束:一是知识图谱把关,所有推理都要符合已知的基因、通路、细胞器之间的因果关系;二是物理规则约束,比如代谢反应必须符合化学计量平衡,动力学符合已知酶学规律;三是强化学习反馈,用真实实验结果当“奖励信号”,让模型越算越准。
![]()
虚拟酵母代理各功能模块的架构框架
三个数据支柱撑起虚拟酵母的“地基”
要让 AI 真的懂细胞,光有算法不够,还得有高质量的数据。文章中明确提出构建虚拟酵母需要三个核心数据支柱:
第一是先验生物学知识。几十年来积累的酵母数据库就是最好的养料:酵母基因组数据库 SGD 的基因注释、YMDB 的代谢物信息、YeastNet 的蛋白互作网络、涵盖近 100 万对遗传互作的全局互作图谱……这些经过实验验证的知识会被整理成结构化知识图谱,给 AI 当“教科书”。
第二是亚细胞空间架构数据。过去我们测组学,往往得到的是整个细胞的平均结果,不知道分子到底在哪个细胞器里干活。现在有了空间组学、膨胀显微镜、冷冻电镜断层扫描这些技术,我们能知道 mRNA 在细胞核里的定位、蛋白在应激颗粒里的分布、线粒体嵴的精细结构。这些数据能给 AI 建立“空间感”——毕竟很多细胞反应,位置错了,功能就错了。
第三是动态状态数据。细胞不是静态的,敲除一个基因、加一种药物、升一度温度,它的状态都会随时间变化。团队已经启动了第一阶段的数据采集:用 969 个天然酵母菌株,在碳氮源变化、温度波动、化学胁迫等不同条件下,做了超过 1.5 万份时间分辨率的蛋白组检测,配套 5000 多份代谢组数据和生长曲线。更重要的是,他们用了“主动学习”策略:AI 先根据现有数据预测哪些扰动条件最“信息量最大”,再指导实验优先做这些,形成“模型预测→实验验证→数据反哺模型”的闭环。
![]()
闭环主动学习推动虚拟酵母模型的迭代优化
从代谢模块开始,虚拟酵母已经在落地
文章中专门举了代谢模块的案例,展示这个框架的实际能力。传统的基因组尺度代谢模型(GEM)虽然能预测生长表型,但很难精准算出细胞内代谢物的浓度变化。而虚拟酵母的代谢模块把 AI 和 GEM 结合起来:用 Evo2 编码基因组特征,用 Uni-Mol 编码小分子特征,用深度学习模型学习蛋白丰度和代谢物浓度的关系,再用 GEM 的反应规则做约束,既能预测代谢流的变化,也能定量估算代谢物水平。
目前这个模块已经在优化代谢物生产的场景里展现潜力:比如预测敲除哪些基因能提高某种工业用氨基酸的产量,比传统机器学习模型的准确率更高。按照规划,未来 5-10 年,这个项目会逐步完成:第一阶段先打磨好代谢模块,建立基准测试集;第二阶段整合 2-3 个细胞器的功能模块;第三阶段实现八个模块的完全整合,形成真正的全细胞 AI 智能体。
不止是酵母:虚拟细胞的通用蓝图
当然,研究团队也坦言:虚拟酵母不会是完美的“数字孪生”,不需要也不可能把细胞里的每一个分子都精确模拟。它的核心价值,是提供一套可落地的框架:从功能出发拆分模块、用多模态数据训练、靠实验闭环迭代、兼顾预测能力和可解释性。
更重要的是,这套思路不只适用于酵母。未来还可以用类似的方法构建人类细胞的虚拟模型,用来模拟疾病发生过程、筛选药物靶点、设计个性化治疗方案。从酵母到人类,从基础研究到生物制造,这个小小的虚拟酵母,可能正是打开“数字生物学”大门的第一把钥匙。
https://www.nature.com/articles/s41586-026-10574-9
![]()
![]()
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.