网易首页 > 网易号 > 正文 申请入驻

Nat Commun | 中科大瞿昆/郭闯团队对染色体外环状DNA算法性能进行系统评估

0
分享至

染色体外环状DNA(eccDNA)通常携带关键的致癌基因和调控元件(如启动子和增强子),在肿瘤研究中具有重要意义。随着研究的深入,人们对eccDNA及其在癌基因扩增、基因表达调控、基因组重排和肿瘤内异质性中作用的理解也逐步加深。目前已有多种分析算法和实验方法来检测eccDNA,包括AmpliconArchitect(AA)算法、CReSIL、Circle_finder、Circle-seq和3SEP等。但鉴于eccDNA结构的复杂性及大小的多样性,针对不同研究选择最适合的分析算法和实验方法仍是一项复杂的任务。现有eccDNA检测方法的评估通常范围有限,往往集中在精确度或计算需求等单一方面,并依赖于过于简化的模拟,无法代表真实测序数据的复杂性。

为解决上述难题,中国科学技术大学瞿昆、郭闯团队在Nature Communications发表了题为“Comparative analysis ofmethodologies for detecting extrachromosomal circular DNA”的文章。研究团队使用7个模拟数据集分析了7种在测序数据中鉴定eccDNA的算法,评估其在准确性、身份识别、重复率和计算资源消耗方面的性能;并通过21个真实测序数据集比较了7种实验建库方法对不同eccDNA类型的检测效率。该比较研究突出了分析富含ccDNA的短读长和长读长测序数据最有效的方法,强调了不同实验方法中eccDNA检测效率的差异,有助于指导科研人员选择合适的研究方法,促进高效eccDNA检测新方法的开发。

文章发表在Nature Communications

01

研究设计

为评估不同分析流程在eccDNA识别中的性能,研究团队开发了一个Python脚本生成eccDNA模拟数据集。该脚本从现有数据中推断长度分布、染色体起源和嵌合的eccDNA比例,以创建模拟环状DNA(真阳性)和线性DNA(真阴性)的混合数据,并模拟了滚环扩增(RCA)过程。最终生成了7个模拟数据集,每个数据集在50X深度下包含10,000个环状和10,000个线性DNA序列。

研究团队评估了7种算法的11种模式,包括用于短读长(SR)测序数据分析的Circle-Map、Circle_finder(bwa-mem-samblaster和microDNA.InOne.sh)、ECCs_plorer和ecc_finder(map-sr和asm-sr),以及用于长读长(LR)测序数据分析的CReSIL、eccDNA_RCA_nanopore、NanoCircle和ecc_finder(map-ont和asm-ont)。性能指标包括F1评分和鉴定的eccDNA与模拟的eccDNA之间的碱基对差异。

对于实验方法评估,研究团队选择了Circle-Seq(SR和LR)、3SEP(SR和LR)、WGS(SR和LR)和ATAC-Seq(SR),评估了每种方法在不同长度和拷贝数状态下的eccDNA检测效率。

图1. 实验流程

02

eccDNA鉴定中不同分析算法的评估

在模拟测序深度为50×时,研究团队对每种分析算法在eccDNA鉴定中的性能进行了评估。结果显示,Circle_finder(bwa-mem-samblaster)和Circle-Map在短读长测序数据中的表现优于其他方法,F1评分分别达到0.912和0.908;CReSIL在长读长测序数据中表现最佳,F1评分为0.918、碱基对差异为4.160 bp。

接下来,研究团队将模拟数据集设置为不同的测序深度,评估了每种算法在eccDNA鉴定中的性能。对于短读长测序数据,Circle_finder(bwa-mem-samblaster)、Circle-Map在所有测序深度中F1评分始终最高;当测序深度从50×下降到5×时,Circle-Map和Circle_finder(microDNA.InOne.sh)的碱基对差异保持稳定;ecc_finder在所有测序深度中显示最低F1评分。在长读长测序数据中,CReSIL在深度超过10×时具有最高的F1评分,而eccDNA_RCA_nanopore在深度低于10×时表现出优越的性能。

除测序深度外,研究团队还研究了嵌合DNA对eccDNA鉴定性能的影响。对于短读长测序数据分析,嵌合DNA比例的变化不影响Circle-finder(bwa-memsamblaster)、Circle-Map和ecc_finder(map-sr)的eccDNA鉴定召回率,但影响ECCs_plorer。在长读长测序数据分析中,对于简单eccDNA和嵌合的eccDNA鉴定,大多数算法基本保持一致的召回率。

基于上述分析,Circle_finder(bwa-memsamblaster)和Circle-Map是最合适分析富集eccDNA的短读长测序数据的算法,但Circle_finder容易生成冗余结果;CReSIL在分析富集eccDNA的长读长测序数据方面优于其他算法,其检测准确率较高,碱基对差异较小。

图2. eccDNA鉴定中不同分析算法的评估

03

富集步骤对eccDNA鉴定的影响

接下来,研究团队通过每Gb数据检测到的eccDNA数量来评估eccDNA检测效率。 结果显示,与不采用RCA相比,采用RCA步骤的方法eccDNA检测效率显著更高; 基因组拷贝数与重叠eccDNA的覆盖率之间存在正相关。

对eccDNA长度分布和染色质来源的进一步分析表明,富集方法检测的eccDNA有97%以上短于10kb,而非富集方法检测到的eccDNA长度超过10kb的比例较高。除3SEP-SR和WGS-SR外,大多数方法的eccDNA密度(每百万碱基检测到的eccDNA数量)与染色体上的蛋白质编码基因密度之间呈显著正相关

图3. eccDNA富集操作对eccDNA鉴定的影响

04

不同实验方法对ecDNA的检测效率

与拷贝数扩增区重叠的eccDNA被归类为ecDNA,而这些区域之外的ecDNA被归类为非ecDNA。 研究发现,Circle-Seq-SR、Circle-Seq-LR和3SEP-LR在每Gb数据中鉴定出的ecDNA平均数量较高,但WGS-SR、WGS-LR和ATACSeq-SR鉴定出的eccDNA中ecDNA的比例明显更高

研究团队进一步分析了不同长度(≤2kb,2-10kb,>10kb)ecDNA和非ecDNA的检测效率。结果显示,3SEP-LR在检测长度≤2kb的ecDNA和非ecDNA时显示出最高的效率;Circle-SeqSR对2-10kb的ecDNA检测效率最高;对于>10kb的ecDNA, Circle-Seq-LR检测性能优于其他方法

此外,不同实验方法检测到的ccDNA图谱具有异质性,其检测到的eccDNA在长度、癌基因组成和包含的基因重复元件等方面展现出显著不同。因此,在比较不同研究的结果时,特别需要考虑所使用的实验方法。

图4. 7种实验方法对ecDNA的检测效率

05

结 语

综上所述,研究团队使用各种指标评估了7种分析算法、并通过检测效率比较了7种实验方法,确定了最佳eccDNA检测方法。Circle_finder(bwamem-samblaster)和Circle-Map在短读长数据中鉴定eccDNA的性能最佳,而CReSIL在长读长数据分析方面表现优于其他方法。在实验方法中,Circle-Seq-LR对较长的eccDNA检测效率最高,而3SEP-LR对较短的eccDNA的检测效率更高。该研究结果为科研人员选择最合适的eccDNA研究方法提供了重要信息。

论文原文:

Gao, X., Liu, K., Luo, S. et al. Comparative analysis of methodologies for detecting extrachromosomal circular DNA. Nat Commun 15, 9208 (2024).

https://www.nature.com/articles/s41467-024-53496-8

快点亮"在看”吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
没有商量余地,中国直接收回,17万日本人泪奔,高市闯祸了!

没有商量余地,中国直接收回,17万日本人泪奔,高市闯祸了!

云景侃记
2025-12-18 19:31:26
高层工业建筑着火,楼下多辆车受波及燃烧起来;天津消防:已扑灭,无伤亡

高层工业建筑着火,楼下多辆车受波及燃烧起来;天津消防:已扑灭,无伤亡

大风新闻
2025-12-18 23:53:02
罕见中的罕见!广西发现一例稀有血型“恐龙血”,该名男子是由基因突变导致的,全球仅有2例,都在广西

罕见中的罕见!广西发现一例稀有血型“恐龙血”,该名男子是由基因突变导致的,全球仅有2例,都在广西

观威海
2025-12-19 09:42:08
2025“年度字词”揭晓

2025“年度字词”揭晓

界面新闻
2025-12-19 10:33:56
越南再论中越战争:若中国五日内不撤军,谅山主力或遭全歼,最终结局怎样?

越南再论中越战争:若中国五日内不撤军,谅山主力或遭全歼,最终结局怎样?

孔孔说体育
2025-12-19 07:08:27
万亿顺差背后,为什么“扩大内需”成了最紧迫的事?

万亿顺差背后,为什么“扩大内需”成了最紧迫的事?

知本设
2025-12-13 10:32:01
看完CBA前三轮,发现这三位球员最应该入选中国男篮!徐杰领衔

看完CBA前三轮,发现这三位球员最应该入选中国男篮!徐杰领衔

多特体育说
2025-12-18 22:19:25
万科68.6亿元卖掉19个项目

万科68.6亿元卖掉19个项目

地产微资讯
2025-12-19 08:43:11
30岁健美冠军王昆意外猝死,深扒死因发现,他生前有3个致命习惯

30岁健美冠军王昆意外猝死,深扒死因发现,他生前有3个致命习惯

法老不说教
2025-12-18 19:20:30
机关事业单位退休人员,养老金8037元,职业年金871元,正常吗?

机关事业单位退休人员,养老金8037元,职业年金871元,正常吗?

史行途
2025-12-19 09:40:38
浙江多个县(市、区)委书记调整

浙江多个县(市、区)委书记调整

上观新闻
2025-12-19 08:47:13
马斯克预测某车企:必死!

马斯克预测某车企:必死!

电动知家
2025-12-17 16:25:04
“走读中柬”系列文化活动在柬埔寨成功举办

“走读中柬”系列文化活动在柬埔寨成功举办

参考消息
2025-12-18 09:41:08
江苏文旅厅调查南博藏品现身拍卖,第二幅丢失画作去向曝光

江苏文旅厅调查南博藏品现身拍卖,第二幅丢失画作去向曝光

一口娱乐
2025-12-19 07:38:00
丈夫43岁被总监裁员,领了补偿后把前同事删了,老板知道后傻眼了

丈夫43岁被总监裁员,领了补偿后把前同事删了,老板知道后傻眼了

小秋情感说
2025-12-18 14:28:52
77岁老艺术家何庆魁,被亲儿子捅刀:他嫖不动了,每月1万够花

77岁老艺术家何庆魁,被亲儿子捅刀:他嫖不动了,每月1万够花

丰谭笔录
2025-12-15 10:43:28
与南京博物院《江南春》有关的陆挺是谁

与南京博物院《江南春》有关的陆挺是谁

户外小阿隋
2025-12-19 08:05:02
CBA焦点战今夜打响!19日19点30分!附上CCTV5和CCTV5+直播表

CBA焦点战今夜打响!19日19点30分!附上CCTV5和CCTV5+直播表

老吴说体育
2025-12-19 09:52:22
别吃太清淡,181个国家研究:吃得越咸,寿命可能越长?真相来了

别吃太清淡,181个国家研究:吃得越咸,寿命可能越长?真相来了

岐黄传人孙大夫
2025-12-17 09:05:37
万科自救失败,要变天了

万科自救失败,要变天了

新行情
2025-12-18 14:11:20
2025-12-19 12:36:49
测序中国 incentive-icons
测序中国
基因行业领航新媒体
234文章数 16关注度
往期回顾 全部

科技要闻

2025新一代人工智能创业大赛总决赛收官

头条要闻

牛弹琴:战机又被照射后日本急了 有人第一个想到中国

头条要闻

牛弹琴:战机又被照射后日本急了 有人第一个想到中国

体育要闻

没有塔图姆,还有塔秃姆

娱乐要闻

曲协表态仅6天,郭德纲担心的事还是发生

财经要闻

非法集资911亿!"金融大鳄"终审被判无期

汽车要闻

轴距加长配置升级 广汽丰田雷凌L官图发布

态度原创

数码
亲子
旅游
游戏
公开课

数码要闻

戴尔推入门游戏显示器SE2426HG、SE2726HG:FHD 240Hz Fast IPS

亲子要闻

父爱亏欠的女儿会在垃圾堆里找糖,父爱缺席的儿子学不会责任担当

旅游要闻

海南文旅推介会在罗马成功举办

魔兽世界:60版本黑石塔公认最极品的装备,第一款根本刷不到!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版