网易首页 > 网易号 > 正文 申请入驻

科学家提出新算法miniQuant,破解基因异构体定量难题

0
分享至

经过近 20 年的技术积累,RNA 测序领域迎来了一项重要突破。近日,美国密歇根大学区健辉(Kin Fai Au)教授团队在Nature Biotechnology发表论文,提出了一种名为 miniQuant 的新算法,有效解决了困扰科学界十多年的基因异构体(gene isoform)定量难题。

“这个问题大家已经讨论了十几年了,但没有一个数学的、具有数据科学的定义。”区健辉向 Deeptech 表示。这一突破性工作不仅提供了严谨的理论基础,还开发出实用的软件工具,为 RNA 测序数据分析带来了新的标准。

在我们的认知中,一个基因往往对应一个蛋白质,但实际上,一个基因可以通过可变剪接(alternative splicing)产生多种被称为基因异构体的信使 RNA(mRNA)版本。这些异构体极大地丰富了生命的复杂性,但要准确地定量分析它们的表达水平,却一直是生物信息学领域的一大挑战。

目前主流的测序技术分为二代和三代。二代测序如 Illumina 平台读长较短,通常为 150 个碱基对(base pair),但通量高、成本低;而三代测序如 PacBio 和 ONT(Oxford Nanopore Technologies)平台读长可达几万个碱基对,能够覆盖完整的 RNA 分子,但通量相对较低、成本较高。因此,研究者们常常面临一个两难的选择:究竟何时该用哪种技术?

这种技术选择的困难源于一个根本问题:由于基因的不同异构体(isoform)之间共享外显子序列,许多短读段无法明确分配给其来源异构体,导致定量分析存在不确定性。而长读段虽然能够跨越完整转录本,但较低的测序深度又会影响低表达基因的检测精度。

为了科学地解决这一问题,研究团队提出了 K 值(K-value)概念——一个基于广义条件数(generalized condition number)的基因特异性指标,用于量化基因异构体定量过程中的不确定性。具体而言,K 值定义为读段类-异构体比对概率矩阵 A 的最大和最小正奇异值的比值。研究团队通过严格的数学推导证明,在观测误差相对较小的情况下,相对定量误差的上界与 K 值近似成正相关,K 值越高的基因越容易在异构体定量中出现误差。

这一理论框架的重要性在于,它首次为基因异构体复杂度的评估提供了数学上严格的定义。过去虽然有一些研究尝试用异构体数量或外显子数量来定义基因复杂度,但这些方法缺乏严谨的数据科学基础。而 K 值的提出填补了这一理论空白,使得研究人员能够在数据收集和分析之前就评估基因异构体定量的可靠性。

为了验证 K 值理论的有效性,研究团队对超过 17,000 个来自 GTEx、TCGA 和 ENCODE 联盟的公共数据集进行了大规模分析。结果显示,当 K 值从 1 增加到 25 以上时,平均绝对相对差异(MARD,Mean Absolute Relative Difference)的中位数在 GTEx、TCGA 和 ENCODE 数据集中分别增加了 0.1830、0.1559 和 0.1721。更重要的是,这种关联性在不同的生物学背景、样本资源、测序平台和数据质量条件下都保持一致,证明了 K 值作为内在定量误差指标的稳健性。

基于 K 值理论,研究团队开发了 miniQuant 软件,这是一个能够智能整合长短读段优势的创新工具。miniQuant 包含两个模式:miniQuant-L 仅使用长读段进行定量,而 miniQuant-H 则是核心创新的混合模式,能够整合长短读段数据。

区健辉介绍说:“我们可以用 K 值来帮助研究人员设计数据收集方案,指导他们应该选择二代测序还是三代测序。”miniQuant-H 采用机器学习方法,根据基因结构特征(包括 K 值)和数据特征,为每个基因群体(gene community)确定最优的长短读段权重组合。

该算法的智能之处在于,能够针对不同的误差来源采取相应的应对策略。对于结构复杂的基因(高 K 值),算法会更倾向于使用长读段来减少解卷积误差;而对于表达量较低的基因,则会增加短读段的权重以减少采样误差造成的影响。例如,对于 K 值高达 82.26 且相对高表达的基因VPS13D,miniQuant-H 分配了 0.75 的长读段权重;而对于 K 值较低(5.37)且表达量相对较低的基因TCP11L2,最优长读段权重仅为 0.25。

在多项基准测试中,miniQuant-H 展现出显著优势。在模拟数据测试中,该算法在多种测序深度组合下的平均中位数 MARD 为 0.1249,显著优于现有的短读段工具(0.1505-0.3555)和长读段工具(0.2515-0.9394)。在真实数据验证方面,研究团队使用了来自 LRGASP 联盟的合成加标转录本数据。对于 ERCC 加标转录本,由于都是单异构体基因不存在解卷积误差,长读段工具由于采样误差普遍表现不如短读段工具,而 miniQuant-H 达到了与短读段工具相当的精度。对于结构复杂的 SIRV 加标转录本,长读段工具表现更优,miniQuant-H 则取得了最低的平均误差。

研究团队进一步将 miniQuant 应用于人类胚胎干细胞(ESC,Embryonic stem cell)分化研究中,揭示了干细胞分化过程中的异构体转换事件。通过分析 ESC 分化为咽内胚层(PE,Pharyngeal Endoderm)和原始生殖细胞样细胞(PGC,Primordial Germ Cell-like Cells)的过程,研究人员成功鉴定出 151 个(ESC 到 PE)和 161 个(ESC 到 PGC)发生异构体转换的基因。这些发现具有重要的生物学意义,例如MAT2B基因虽然整体表达水平保持稳定,但其异构体使用模式发生了显著变化,这种转换可能影响细胞的凋亡调控能力。

值得注意的是,这些已识别的重要异构体转换事件很多发生在高表达基因中(第 82-99 百分位,TPM 从 30.60 到 1,077.09),如果仅依靠长读段测序,在典型的测序深度下(如 600 万条 cDNA-ONT 读段),当这些基因的表达水平被下采样至第 75 百分位丰度时,长读段工具的定量结果就会因为采样误差而变得不可靠。相比之下,miniQuant-H 通过整合短读段数据,能够在更大的基因表达范围内稳定地检测异构体转换模式。

与现有的整合方法相比,miniQuant 展现出明显的技术优势。例如,StringTieMix 采用相对简单的读段分配策略,将每个短读段分配给最多长读段支持的兼容异构体,在模拟数据中的表现有限。而 miniQuant-H 通过复杂的机器学习模型和联合似然函数,实现了更精确和自适应的数据整合。

这项研究从两个方面推动了 RNA 测序技术的发展:一方面,从理论上建立了评估基因异构体定量可靠性的数学框架;另一方面,在实践上提供了能够根据具体数据特征和基因结构自适应选择最优策略的软件工具。

区健辉总结道:“这是首次以严谨的科学方法告诉研究人员哪些基因复杂、哪些基因简单,以及何时应该选择不同的测序技术。以前大家都是凭感觉和经验来判断,现在我们提供了科学的标准。”审稿人也评价该研究“回答了领域内长久以来悬而未决的问题”。

目前,miniQuant 软件已在 GitHub 平台(https://github.com/Augroup/miniQuant)开源发布,并提供了针对不同测序平台和深度组合的预训练模型,包括 cDNA-PacBio、cDNA-ONT 和 dRNA-ONT 等协议。随着长读段测序技术成本的持续下降和精度的不断提升,这种智能整合长短读段优势的方法有望为转录组研究提供更加精确和经济的解决方案,推动基因异构体功能研究向更深层次发展。

相关论文以《基于 miniQuant 的基因异构体定量优化方法》(Improving gene isoform quantification with miniQuant)为题发表在Nature Biotechnology上 [1]。密歇根大学博士研究生李浩然、 王定杰、高琦、谭普文、王运浩和蔡晓羽博士是共同第一作者,区健辉教授担任通讯作者。

参考资料:

1.Li, H., Wang, D., Gao, Q. et al. Improving gene isoform quantification with miniQuant.Nature Biotechnology(2025). https://doi.org/10.1038/s41587-025-02633-9

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太阳报:大量枪迷想抢票见证夺冠,西汉姆联严查主队看台购票

太阳报:大量枪迷想抢票见证夺冠,西汉姆联严查主队看台购票

懂球帝
2026-03-26 13:21:13
学医后才知道,保护心血管最好的运动,不是快走慢跑,而是这个

学医后才知道,保护心血管最好的运动,不是快走慢跑,而是这个

垚垚分享健康
2026-03-26 13:09:39
三观尽毁!萝莉岛新照片流出,办公桌下趴着妙龄女郎,不堪入目!

三观尽毁!萝莉岛新照片流出,办公桌下趴着妙龄女郎,不堪入目!

川渝视觉
2026-02-09 10:43:27
3-1拿下陈熠,最后一个世乒赛名额到手,王艺迪笑到了最后

3-1拿下陈熠,最后一个世乒赛名额到手,王艺迪笑到了最后

眼界纵横
2026-03-26 23:25:59
“公路闪电”终于换代,但我觉得不如丰田

“公路闪电”终于换代,但我觉得不如丰田

差评XPIN
2026-03-26 09:57:20
中日48小时交锋:日企被排除,东京降级对华关系

中日48小时交锋:日企被排除,东京降级对华关系

星落山间
2026-03-25 14:12:01
第86轮打击来袭!打击力度升级,以色列海军基地遭摧毁,川普让步

第86轮打击来袭!打击力度升级,以色列海军基地遭摧毁,川普让步

爱吃醋的猫咪
2026-03-26 22:25:02
几乎全是假货!利润高达2400%,咋消费者还前赴后继争相购买?

几乎全是假货!利润高达2400%,咋消费者还前赴后继争相购买?

梦史
2026-01-07 10:08:05
女大学生住院做检查,报告竟是假的!珠海中山五院等多方回应

女大学生住院做检查,报告竟是假的!珠海中山五院等多方回应

南方都市报
2026-03-24 12:42:25
大众中国回应斯柯达退出中国市场

大众中国回应斯柯达退出中国市场

澎湃新闻
2026-03-26 17:33:03
男女约会隐秘又安全的12个地方,有6个场合你根本想不到

男女约会隐秘又安全的12个地方,有6个场合你根本想不到

聪明小石头
2026-03-21 09:13:42
70岁陈宝国现状:头发胡子全白,老到认不出,大龄儿子是他的烦恼

70岁陈宝国现状:头发胡子全白,老到认不出,大龄儿子是他的烦恼

白面书誏
2026-03-24 18:23:07
小区楼上天天晚上都有女的大声叫。。。

小区楼上天天晚上都有女的大声叫。。。

微微热评
2025-12-24 00:26:04
男同胞们别嘴硬,老实回答!

男同胞们别嘴硬,老实回答!

小光侃娱乐
2026-03-07 13:15:07
房价上涨的最强信号!

房价上涨的最强信号!

米宅
2026-03-24 07:26:02
诺基亚6600内置无人机,这设计必须封神

诺基亚6600内置无人机,这设计必须封神

3C毒物
2026-02-27 15:25:40
还记得20年前的《故事会》吗?广告不堪入目,简直是个纸上"暗网"!

还记得20年前的《故事会》吗?广告不堪入目,简直是个纸上"暗网"!

神奇故事
2026-03-17 23:54:32
汉武帝用一场血腥清算告诉后人,为什么最该死的永远是中间派!

汉武帝用一场血腥清算告诉后人,为什么最该死的永远是中间派!

掠影后有感
2026-03-26 10:50:33
伊朗格斗冠军被捕!或被截肢+判处死刑 曾来中国参赛 击败5大高手

伊朗格斗冠军被捕!或被截肢+判处死刑 曾来中国参赛 击败5大高手

念洲
2026-03-25 17:59:21
一夜暴跌25%!小马哥最怕的事还是发生了:年轻人正在从腾讯溜走

一夜暴跌25%!小马哥最怕的事还是发生了:年轻人正在从腾讯溜走

潮鹿逐梦
2026-03-21 11:54:42
2026-03-27 00:20:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16491文章数 514798关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
艺术
数码
教育
时尚

手机要闻

OPPO K15 Pro 系列定档,岚影呼吸灯搭配金属中框

艺术要闻

哪一座桥不是风景?

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

教育要闻

天天学习|走进课堂的“大朋友”

400万人爱过的女孩,被黄谣网暴180天后

无障碍浏览 进入关怀版