网易首页 > 网易号 > 正文 申请入驻

Nucleic Acids Research | 基于深度学习与绝缘化原理的合成生物顺式调控元件从头设计

0
分享至

在合成生物学领域,科学家们希望能“编程”生命 ,实现可预测地 设计 基因 元件(比如启动子 、 增强子) 、蛋白质等目标, 让细胞按照 人们 预定 的强度 表达 功能 基因。近 年来 ,人工智能 (AI) 特别是深度学习技术,成 为 这项工作的“新引擎”。通过分析实验数据,AI模型能预测哪些序列会带来强或弱的基因表达,甚至能设计出全新的调控序列。

然而 ,这项技术 存在一个长期 被低估的难题 —— “数据污染”。 正如 人们 所讨论的, 大语言模型会 受到 网络 中 “错误信息” 的 污染, 其 本质 在于 训练数据 受到 非目标信息干扰, 导致 模型学 习到 错误 的 规律。 在常 规生物 实验中,研究者会在 特定 宿主细胞 中对 人工设计的序列 进行 测试。但很多看起来“活跃”的序列, 其活性实际上源于 宿主细胞自身的 意外激活 ,而 非 目标 元件本身 的 活性 。把这 类 “污染”数据喂给AI 模型 ,就 如同教幼儿 识字时混进错别字, AI 模型也会 因此“学偏” ,记住不 应 有的规则。 这不仅会导致模型的预测结果失真,还使其难以在不同物种间实现通用。

近日, 中国科学院 深圳先进 技术研究 院 定量合成生物学全国重点实验室、合成生物学研究所 娄春波 课题组与清华大学自动化系 汪小我 课题组 合作 在Nucleic Acids Research期刊 上 发表了文章

De novo design of insulated cis-regulatory elements based on deep learning-predicted fitness landscape
, 提出并验证了一项关键观点: 去除宿主 细胞内“ 污染 语料 ”,是实现高精度模型预测 及 可控 从头 设计 顺式基因元件 的前提条件。

问题发现 : 数据污染是模型“预测失灵”的根源

在利用深度学习设计基因调控元件的过程中,存在一个常被忽视但至关重要的问题—— 宿主背景污染 。研究团队在分析K1.5启动子系统的实验数据时发现: 当采用 随机序列筛选活性启动子时, 许 多看 似 “活跃”的序列 ,其活跃并非源于 对目标RNA聚合酶(K1.5 RNAP) 的 调控,而是因意外被宿主大肠杆菌自身的转录体系激活 所致 。

这类似于教 AI识别苹果 图片 时, 训练数据中混入了橘子图片却都标注为 “苹果”; 在此情况下, AI模型学到的不是真正区分苹果的特征,而是各种混 杂 的错误模式。

研究人员通过深入分析发现,这种“宿主背景污染”并非个别现象,而是在宿主细胞中任意筛选随机序列时普遍存在的问题。在传统体系里,顺式调控元件必须和宿主的转录因子(比如 RNA聚合酶、σ因子等)协 同作用 , 因此 随机序列 极易 无意中激活宿主 自身的调控机制 ,产生“伪阳性”信号。

这类“非目标”信号会对 AI模型 形成误导 ,使得它学到的规律 仅 在特定宿主 内 有效,无法迁移到其他物种或新的表达系统。要真正实现可预测、可迁移的功能元件设计,就必须从源头上去掉 此类 背景干扰,建立一个真正“正交”(即彼此独立、互不干扰)的表达系统, 确保AI 模型学到的调控规律 具有 纯粹 性 、可解释 性和 可泛化 性 。

为此,研究团队设计了一套“预测 +实验双重筛选”的数据净化流程: 首先通过 模型预测识别 并 排除可能受宿主背景激活的序列,再 借助 双通道诱导实验(有/无IPTG条件)进一步筛掉对目标RNA聚合酶无响应的序列。最终,团队构建出一个 仅 包含K1.5系统 真实 调控信息、宿主背景 干扰 最小化的高质量数据集。

图1 研究人员构建的正交调控系统示意图

建模突破:构建绝缘表达系统 , 绘制真实 的全 景观 活性功能

基于 上述 净化后的高质量数据集,研究团队训练了一个深度卷积神经网络模型。模型 以 DNA启动子序列的编码 作为输入 , 以 实验测得的表达强度 作为 输出。

不同于传统 仅 能给出结果预测的“黑箱”模型,团队通过特征可视化分析,成功绘制 出 “ 活性功能全景观 ” 。这 一 “景观” 可类比 表达强度随DNA序列变化的 地形 图 。 模型能在 该景观 里找到“局部高峰” (即 表达强度最优的序列模式 ), 还能识别出关键的功能motif(序列片段), 从而 帮助 解析 基因调控的内在规律。

一个 极具 意义的发现是: 仅需 大约1250条经净化的高质量序列, 即可 把模型的表达强度预测精度做到R²=0.90。 这表明 数据的“ 纯净度 ”比规模更重要。 该 结果为 后续 利用生成模型设计新序列打下了坚实的基础。

在这 一 精准的表达景观模型基础上,团队开发 出 真正的“从头设计(de novo design)”策略。从完全随机生成的DNA序列 出发 ,利用模型预测到的“爬坡”方向,通过反向传播和迭代优化, 持续 调整碱基组成,让序列在“表达景观” 中逐步 攀升 至 目标表达强度区域。

这一方法 突破了以往以来 天然模板、 通过 反复突变和筛选 实现的 “半理性设计” 模式 ,实现了真正意义上的“从零生成”。实验验证显示, 该 方法设计出的人工启动子 其 表达强度范围 广泛 覆盖野生型水平 ,且 预测值和实际测试结果高度一致,尤其在中高表达区的偏差 极 小 ,且 设计出的不同序列之间差异 显著 ( Hamming 距离大于10bp), 有效规避 了同源重组或序列冗余问题,保证了多样性和稳定性。

功能验证:生成启动子在不同宿主中保持表达可预测性

为进一步验证所设计调控元件的功能稳定性与跨物种适应性,研究团队将部分模型生成的启动子序列移植至哺乳动物细胞系统中进行表达测试。实验 选取 常用的中国仓鼠卵巢细胞(CHO)为代表,在等效的启动子-RNAP组合条件下评估其表达活性。

结果显示,这些 已 在大肠杆菌中验证的人工启动子,在CHO细胞中同样 呈现 出与模型预测值 基本 一致的表达趋势, 其表达强度与模型预测结果间具有显著线性相关性(R² = 0.54) 。尽管不同物种的表达背景存在差异,该结果仍表明 , 模型设计出的顺式元件具备良好的表达可控性和 宿主 迁移能力, 具备“跨宿主平台”通用化应用的潜力 。

为评估该策略的系统适配性,研究团队进一步将 活性功能景观建模 与 从头 设计方法拓展至 T7 RNA聚合酶系统 。作为经典的合成表达平台 , T7系统具有较强的表达能力和广泛的应用基础。研究显示,所生成的T7启动子序列同样实现了表达水平的可控设计,且与模型预测结果高度一致。这一结果验证了该方法不仅适用于K1.5系统, 还 具备向其他 单因子驱动、正交表达系统泛化的能力 ,为调控元件的模块化设计与系统工程化打下了通用基础。

本研究建立了一套面向顺式调控元件的高通量、可解释、跨系统泛化的从头设计流程,有望解决以往因为宿主背景干扰导致的模型预测失真和迁移失败这一长期难题。通过结合绝缘型表征系统的构建和深度学习预测模型,研究团队实现了从随机序列到目标功能启动子的精准生成,并验证了其在不同 RNA聚合酶系统和不同宿主细胞中的通用性。 该成果 为合成生物线路设计、跨物种基因回路构建以及可编程细胞工厂的开发提供了 全新 解决方案, 或将 推动AI驱动的基因调控研究迈向真正的“功能级别智能设计”阶段。

中国科学院深圳先进技术研究院研究员娄春波 、 清华大学教授 汪小我 为本文共同通讯作者。清华大学博士研究生王昊 晨 ,中国科学院深圳先进技术研究院 助理研究员 项 延会 、 研究助理 刘子 明 为共同第一作者。

https://academic.oup.com/nar/article/53/12/gkaf611/8185980?login=false

制版人: 十一

学术合作组织

(*排名不分先后)


战略合作伙伴

(*排名不分先后)

转载须知


【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。

BioArt

Med

Plants

人才招聘

近期直播推荐

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
换人遭质疑!重庆铜梁龙1-1青岛西海岸,刘建业调整引球迷不满!

换人遭质疑!重庆铜梁龙1-1青岛西海岸,刘建业调整引球迷不满!

田先生篮球
2026-04-26 22:25:51
这跟不穿有啥区别?内裤外露、开叉开到腰,有钱人的时尚真看不懂

这跟不穿有啥区别?内裤外露、开叉开到腰,有钱人的时尚真看不懂

潮鹿逐梦
2026-03-02 17:19:02
伊朗议员:伊方已形成管理霍尔木兹海峡综合方案,敌对国船只不得通过,通过船只须缴纳相关费用 优先以里亚尔支付

伊朗议员:伊方已形成管理霍尔木兹海峡综合方案,敌对国船只不得通过,通过船只须缴纳相关费用 优先以里亚尔支付

每日经济新闻
2026-04-26 16:28:05
上海男子为逃千元停车费,竟套用邻居车牌出入小区,自以为天衣无缝,结果……

上海男子为逃千元停车费,竟套用邻居车牌出入小区,自以为天衣无缝,结果……

环球网资讯
2026-04-27 08:52:37
张兰感慨一个好女儿旺三代,大S女儿玥玥生日冷清,被疑内涵儿媳

张兰感慨一个好女儿旺三代,大S女儿玥玥生日冷清,被疑内涵儿媳

甜柠檬吖
2026-04-27 12:07:10
中超超巨失误!李昊黄油手,中超已丢50球,杜月徵半场压哨破门

中超超巨失误!李昊黄油手,中超已丢50球,杜月徵半场压哨破门

奥拜尔
2026-04-26 19:52:32
胡金秋:想尽量延续职业生涯,在CBA打到父子同场

胡金秋:想尽量延续职业生涯,在CBA打到父子同场

懂球帝
2026-04-26 18:37:15
震惊!洛阳某职业学院高调官宣10名毕业生入职肯德基,引发争议

震惊!洛阳某职业学院高调官宣10名毕业生入职肯德基,引发争议

火山詩话
2026-04-24 16:29:11
伊朗外长向巴基斯坦递交停战条件

伊朗外长向巴基斯坦递交停战条件

新华社
2026-04-26 23:15:28
35岁女子去做私处紧缩,缝针断在肉里,医生徒手掏了半小时没找着

35岁女子去做私处紧缩,缝针断在肉里,医生徒手掏了半小时没找着

离离言几许
2026-04-21 19:53:18
巴基斯坦总统深夜抵达长沙,这趟中国行有点不一样

巴基斯坦总统深夜抵达长沙,这趟中国行有点不一样

娱乐圈的笔娱君
2026-04-27 01:06:50
一场0-3!揪出河南队3大“水货” 冒充职业球员 拉莫斯赛后罕见发火

一场0-3!揪出河南队3大“水货” 冒充职业球员 拉莫斯赛后罕见发火

画夕
2026-04-27 12:49:49
美伊战争打醒了所有人!原来中国真正的“护城河”,竟是山西!

美伊战争打醒了所有人!原来中国真正的“护城河”,竟是山西!

乐享人生风雨
2026-04-27 12:30:25
枪手已经死了,从此特朗普变身成为传奇耐杀王

枪手已经死了,从此特朗普变身成为传奇耐杀王

贩财局
2026-04-26 11:37:59
疑似国产垂直起降战机被曝光,或是基于歼20衍生而来

疑似国产垂直起降战机被曝光,或是基于歼20衍生而来

烽火观天下
2026-04-27 11:06:43
艾顿被驱逐!115-96火箭大胜,看数据:你才是头号功臣!

艾顿被驱逐!115-96火箭大胜,看数据:你才是头号功臣!

运筹帷幄的篮球
2026-04-27 10:53:20
真相大白!那台拉缸的张雪820RR返厂,经拆解后本人公布故障原因

真相大白!那台拉缸的张雪820RR返厂,经拆解后本人公布故障原因

一盅情怀
2026-04-26 15:32:03
10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

小噎论事
2026-04-24 17:15:21
文班27分4断7帽!19分逆转夺赛点,克林根被打到弃用,杨瀚森上场

文班27分4断7帽!19分逆转夺赛点,克林根被打到弃用,杨瀚森上场

你的篮球频道
2026-04-27 06:21:13
丑陋1-3!湖人惨败詹姆斯8失误,裁判抢戏艾顿驱逐,火箭机会来了

丑陋1-3!湖人惨败詹姆斯8失误,裁判抢戏艾顿驱逐,火箭机会来了

老侃侃球
2026-04-27 12:22:41
2026-04-27 13:24:49
BioArt incentive-icons
BioArt
探索生物艺术之奥秘
9930文章数 18510关注度
往期回顾 全部

科技要闻

打1折!DeepSeek输入缓存降价

头条要闻

女子将车停车库没动却被认定要为事故担次责 交管回应

头条要闻

女子将车停车库没动却被认定要为事故担次责 交管回应

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

《奔跑吧14》刚播就把一手好牌打稀烂

财经要闻

DeepSeek融资、字节加码 AI开始真烧钱了

汽车要闻

在不确定中寻找确定性:大众汽车的中国解法

态度原创

房产
旅游
数码
本地
公开课

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

旅游要闻

提前剧透|济南野生动物世界马戏嘉年华重磅升级,承包你五一假期的欢乐!

数码要闻

轻薄本搭载2.5GbE RJ45,System76推出Pangolin Pro (2026)

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版