![]()
合成生物学定义为设计-构建-测试-学习循环。最近机器学习的进步正在改变这一格局;因此,我们建议「学习」可以先于「设计」。
在合成生物学实验室中,研究者设计基因序列、构建质粒、转化菌株、验证功能——这一整套流程被称为DBTL 循环:Design – Build – Test – Learn。这是过去二十年生物工程的金标准。这些循环通过提供一种系统且迭代的工程框架来简化和简化构建生物系统的过程。
机器学习为所需蛋白质和途径提供了新的机会,但碍于蛋白质功能的表征等问题,整体的流程其实并不尽如人意。在整个循环的最后一步「L」,也就是学习中,机器学习方法之所以占据主导地位,并不是因为它们取代了物理学,而是因为当前的生物物理模型在应用于生物分子的复杂性时计算成本高昂且范围有限。
所以不如换个思路——把「L」提到前面来。
![]()
图 1:当前 DBTL 工作流程的提议改进。
这就是美国德克萨斯大学奥斯汀分校(University of Texas at Austin)与西北大学(Northwestern University)、斯坦福大学(Stanford University)等共同提出的思路——新的循环LDBT — Learn → Design → Build → Test。
相关的研究内容以「LDBT instead of DBTL: combining machine learning and rapid cell-free testing」为题,于 2025 年 11 月 5 日发布在《Nature Communications》。
![]()
论文链接:https://www.nature.com/articles/s41467-025-65281-2
让「学习」成为起点
如 ESM 和 ProGen 这样的蛋白质语言模型是在所有进化树中嵌入蛋白质序列的进化关系上进行训练的,能够完成预测有益突变和推断蛋白质序列功能等任务。
但即使是在诸如零样本设计策略等方面上,有了机器学习的增强,经典的 DBTL 循环仍然需要多次迭代才能获得知识,而循环中的构建-测试部分尤其缓慢。本应在这个阶段进行学习的的数据可能早就训练过了。所以不如效仿零样本预测,通过「LDBT」重新排序循环。
![]()
图 2:Learn-design-build-test 代替 design-build-test-learn。
首先,利用深度学习模型(如蛋白语言模型 ESM-2、结构设计模型 ProteinMPNN),AI 可以在无明确模板的情况下生成全新序列或结构预测。
其次,基于模型输出,研究者可选择最具可行性的方案,用结构建模(AlphaFold、RosettaFold)预测折叠稳定性与活性位点分布,这种方式可以将近 10 倍地提高设计成功率。DBTL 范式的进程同样可以借助细胞裂解物等进行体外转录和翻译,这样就无需中间的耗时克隆步骤,表达的蛋白质可以直接使用或进一步纯化。
用 AI 代理进行闭环设计平台进一步扩大了产能。细胞自由表达系统带来了高通量处理能力,为构建用于训练机器学习模型的大数据集和测试计算预测提供了有力工具,这其中也包括解决蛋白质表达问题的数据。
将这些进步扩展到蛋白质工程之外,需要进一步取得进展,比如说把建模扩展到更多分子、途径。在重新构想的 LDBT 循环中,从「所需功能」到「设计序列」再到「工作蛋白质/功能」的承诺有望解锁生物学的完整设计空间。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.