网易首页 > 网易号 > 正文 申请入驻

准确率68.7%,牛津、EPFL等团队WES数据体细胞和种系CNV调用程序

0
分享至

编辑 | 萝卜皮

拷贝数变异(CNV)与多种遗传性疾病的病因有很大关联。利用全外显子组测序(WES)数据准确检测 CNV 一直是临床上长期追求的目标。尽管最近性能有所提高,但这是不可能的,因为算法大多精度低,专家策划的黄金标准调用集的召回率甚至更低。

牛津大学(Oxford University)、瑞士洛桑联邦理工学院(EPFL)以及土耳其毕尔肯大学(Bilkent University)提出了一个基于深度学习的 WES 数据体细胞和种系 CNV 调用程序,名为 ECOLE。

基于 Transformer 架构的变体,该模型通过对匹配的 WGS 样本进行高置信度调用,学习调用每个外显子的 CNV。

研究人员用迁移学习通过一小组专家调用,进一步训练和微调模型。ECOLE 首次在人类专家标记数据上实现了高性能,准确率达到 68.7%,召回率达到 49.6%。

与排名第二的最佳方法相比,准确率和召回率分别提高了 18.7% 和 30.8%。使用肿瘤样本的相同微调策略使 ECOLE 能够检测膀胱癌样本中经过 RT-qPCR 验证的变异,而无需对照样本。

该研究以「ECOLE: Learning to call copy number variants on whole exome sequencing data」为题,于 2024 年 1 月 2 日发布在《Nature Communications》。

拷贝数变异 (CNV) 是癌症、精神分裂症和自闭症等许多疾病的众所周知的重要危险因素。在过去十年中,高通量测序 (HTS) 一直是检测 CNV 的标准技术。使用全基因组测序 (WGS) 数据的各种 CNV 检测算法非常成功,灵敏度和精确度值分别高达 96% 和 97%。

这与处理整个外显子组测序 (WES) 数据的算法形成鲜明对比,后者的精度非常低。WGS 是一个更适合这项任务的平台,因为它不使用引入长度、GC 和参考偏差的靶向探针。另一方面,WES 在临床上更具吸引力,因为它比 WGS 更紧凑、可解释且价格实惠。不幸的是,由于这些限制,WES 技术在 CNV 检测方面的临床应用受到限制。

牛津大学、瑞士洛桑联邦理工学院以及土耳其毕尔肯大学的研究人员,前期开发了一种基于深度学习的抛光方法(deep-learning-based polishing approach),该方法可以使用对匹配的 WGS 样本进行的更值得信赖的调用,来纠正许多最先进的基于 WES 的种系 CNV 调用者的调用。虽然这是向前迈出的重要一步,但在临床使用方面仍然存在瓶颈。

第一个问题是结果的敏感性。抛光器(polisher)只能处理基本算法返回的调用(例如删除)。它要么改变这些调用(例如,重复),要么中和它们(例如,不调用)。虽然这有助于降低错误发现率,但它对灵敏度的影响有限,因为抛光器无法进行新的调用(例如,将无调用转换为删除/重复)。不幸的是,由于性能非常低,灵敏度大多超出了基于 WES 的 CNV 调用域的范围。

第二个问题是,即使是经过优化后的精度性能也受到专家策划的 CNV 调用集的限制,这些调用集被视为黄金地面事实(高达 35%)。这是因为抛光器使用基于 WGS 的自动化 CNV 调用作为模型训练的标签,但这些标签(调用)与人类专家决策相比具有非常不同的分布。

不幸的是,这种手动策划的调用集尺寸非常小,这阻碍了机器学习模型的训练。因此,在人类专家策划的 CNV 调用集上实现高性能的调用者将使基于 WES 的种系 CNV 检测在临床中得到广泛使用。

图示:ECOLE 的系统概述。(来源:论文)

因此,该团队又提出了第一个基于深度学习的方法(ECOLE: Exome-based COpy number variation calling LEarner),该方法可以独立学习对 WES 数据执行体细胞和种系 CNV 调用。该模型基于 Transformer 模型的变体,这是自然语言处理领域处理序列数据的最先进方法。

ECOLE 可以处理每个外显子的读取深度信号。它了解需要关注信号的哪些部分以及在哪个上下文(即染色体)中调用 CNV。它使用在匹配的 WGS 样本上获得的高置信度调用(即标签)作为半真实值。

ECOLE 在自动 WGS 调用的基准上显着提高了外显子精确度以及第二最佳方法性能的召回率(分别提高了 13.5% 和 16.6%)。这是唯一具有平衡精度和召回率的方法。

此外,该团队还首次提出使用转移学习并使用少量人类专家标记的样本来微调模型参数。研究人员表明,这种方法在预测人类标签方面的精度和召回率分别提高了约 18% 和约 30%。

同样,他们使用微调方法使 ECOLE 能够使用膀胱癌样本来调用体细胞变异。研究人员证明,他们能够在 16 个膀胱癌样本中的 13 个样本中检测到经过 PCR 验证的拷贝数畸变,而最先进的方法即使在抛光后也只能检测到 2 个样本中经过验证的拷贝数畸变。

该方法具有作为种系和体细胞 CNV 调用者的能力,并通过微调轻松适应疾病和人类专家;研究人员建议 ECOLE 作为扩大外显子组测序技术在 CNV 检测临床应用的可行选择。

ECOLE:https://github.com/ciceklab/ECOLE

论文链接:https://www.nature.com/articles/s41467-023-44116-y

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
54:1!菲众议院通过对莎拉弹劾;中方黄岩岛清场;中日定位降级

54:1!菲众议院通过对莎拉弹劾;中方黄岩岛清场;中日定位降级

介知
2026-03-25 13:23:33
2026伦敦世乒赛+国乒大名单出炉,樊振东无缘!日乒伊藤美诚落选

2026伦敦世乒赛+国乒大名单出炉,樊振东无缘!日乒伊藤美诚落选

开成运动会
2026-03-24 16:40:34
马筱梅低调为汪宝办满月,亲戚一概没出镜,汪小菲盛赞岳母很辛苦

马筱梅低调为汪宝办满月,亲戚一概没出镜,汪小菲盛赞岳母很辛苦

小娱乐悠悠
2026-03-25 10:28:48
世欧预前瞻|意大利3-0北爱尔兰:四星意大利强势归来

世欧预前瞻|意大利3-0北爱尔兰:四星意大利强势归来

体育世界
2026-03-25 11:26:56
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

黑鹰观军事
2026-03-25 13:49:59
认识 3 个算我输!50 年前 7 件老物件,最后一件如今难得一见!

认识 3 个算我输!50 年前 7 件老物件,最后一件如今难得一见!

三农老历
2026-03-22 17:59:40
以色列防长“杀光所有伊朗人”言论惹祸始末

以色列防长“杀光所有伊朗人”言论惹祸始末

李未熟擒话2
2026-03-24 19:09:22
摩企禁止驾龄一年内新手买大排量摩托车,被用户投诉到市场监管局,公司:是为用户安全着想

摩企禁止驾龄一年内新手买大排量摩托车,被用户投诉到市场监管局,公司:是为用户安全着想

极目新闻
2026-03-24 12:11:20
华为养了十年的狼,带着一群崽子把家偷了

华为养了十年的狼,带着一群崽子把家偷了

老鹰哥
2026-03-13 11:31:52
巴基斯坦动真格!三军总司令下令对标中国:不学中国,没有出路了

巴基斯坦动真格!三军总司令下令对标中国:不学中国,没有出路了

说宇宙
2026-03-24 14:08:54
美团致歉:承担全部费用和损失

美团致歉:承担全部费用和损失

每日经济新闻
2026-03-24 15:30:45
西甲裁委会:巴尔韦德的动作属于严重暴力犯规,红牌判罚正确

西甲裁委会:巴尔韦德的动作属于严重暴力犯规,红牌判罚正确

懂球帝
2026-03-25 04:33:06
梅奔F1车队公布日本站特殊涂装,前翼印有巨大的野兽图案

梅奔F1车队公布日本站特殊涂装,前翼印有巨大的野兽图案

懂球帝
2026-03-25 12:01:07
65场规定最大受害者!表现强于华子,本可冲MVP,现在三阵进不了

65场规定最大受害者!表现强于华子,本可冲MVP,现在三阵进不了

你的篮球频道
2026-03-25 10:46:48
15.5万起!比亚迪官宣:3月26日,新车正式上市

15.5万起!比亚迪官宣:3月26日,新车正式上市

高科技爱好者
2026-03-24 23:20:20
心梗去世的人越来越多?专家提醒:没事宁可做家务,也别做这8事

心梗去世的人越来越多?专家提醒:没事宁可做家务,也别做这8事

叙说医疗健康
2026-03-12 22:00:05
3月起,国家要向大家‘借钱’了,利息比银行高!关键很靠谱

3月起,国家要向大家‘借钱’了,利息比银行高!关键很靠谱

巢客HOME
2026-03-25 08:40:03
属马的:清明后“午马逢春”,四大喜事排队来,特别是第3个

属马的:清明后“午马逢春”,四大喜事排队来,特别是第3个

小陆搞笑日常
2026-03-25 13:06:03
“廉价的女留子,就是这种下场”,现状被15万人围观,看清了现实

“廉价的女留子,就是这种下场”,现状被15万人围观,看清了现实

妍妍教育日记
2026-03-23 20:50:12
国民党内上演围剿战,架空逼宫党主席,郑丽文访陆可能要黄

国民党内上演围剿战,架空逼宫党主席,郑丽文访陆可能要黄

赵昉是个热血青年
2026-03-25 13:21:33
2026-03-25 15:31:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1261文章数 226关注度
往期回顾 全部

科技要闻

红极一时却草草收场,Sora宣布正式关停

头条要闻

特朗普:希望通过外交方式停战 以"挽救百万人生命"

头条要闻

特朗普:希望通过外交方式停战 以"挽救百万人生命"

体育要闻

NBA最强左手射手,是个右撇子

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

管涛:中东局势如何影响人民币汇率走势?

汽车要闻

智己LS8放大招 30万内8系旗舰+全线控底盘秀实力

态度原创

艺术
手机
数码
本地
公开课

艺术要闻

《百花谱》,这个春天画花不用愁!

手机要闻

华为千元机杀疯了!畅享90系列 1299 元起,麒麟 + 鸿蒙下放,买吗?

数码要闻

权宜之计:Geekbench提示支持IBOT的英特尔处理器跑分可能无效

本地新闻

来永泰同安 赴一场春天的约会

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版