网易首页 > 网易号 > 正文 申请入驻

精准医学的利器:针对罕见人类基因错义变异致病性的预测模型

0
分享至

责编 | 兮

准确的判断人类基因序列变异的致病性可以使人类基因组序列在精准医学领域中的潜力得到充分的发挥。尽管全基因组关联研究(GWAS)探测与疾病相关的罕见错义变异的能力有限,罕见错义变化在人类基因组中的地位举足轻重:超过 99% 的观察到的人类错义变异是罕见的(全球次要等位基因频率或 MAF 低于 0.5%),其中90% 极为罕见(MAF < 10-6)。识别具有破坏性的罕见错义变异是解读个人基因组的一个重要和艰巨的挑战。

现如今通过高通量的深度突变扫描实验评估所有可能的错义变异对单个目标蛋白质功能的影响已经成为可能。但是,在大约4,000 种和人类疾病相关的蛋白质中现仅有不到 1% 有相关的实验结果,而且实验往往是在模式生物细胞中进行的。我们可能还需要很长的时间才能获取完整的高质量的人体细胞深度突变扫描实验数据。相比之下,利用计算预测模型推断变异致病性已经可以应用于所有的人类基因。然而,至今所有的计算预测模型性能都尚未能达到临床应用的标准。

2021年9月21日,加拿大多伦多大学Frederick Roth 团队,吴颖洲(Yingzhou Wu) 作为第一作者,在The American Journal of Human Genetics期刊上 发表了题为Improved pathogenicity prediction for rare human missense variants 的文章,旨在提升针对罕见人类基因错义变异致病性的预测模型的性能。在所有同类模型 (比如:Polyphen2, SIFT, REVEL等等)的预测查准率都调整到90%的情况下,文章中新研发的VARITY_R(针对MAF<0.5%的变异) 和 VARITY_ER (针对 MAF<10-6的变异)监督式机器学习模型,比同类模型检测到至少10%以上的致病变体。

VARITY_R 和VARITY_ER模型的性能提升主要来源于VARITY 机器学习构架(https://github.com/joewuca/varity) 的开发。在监督式学习模型中,当面临大量的训练数据但只有一小部分是高质量数据的情况下,VARITY构架可以通过给不同的训练数据分配与数据质量相关的最优权重来平衡训练数据质量和数量,从而提升模型的性能。VARITY 构架首先将所有的训练数据划分成核心数据(高质量)和附加数据(质量不确定),然后根据需要将核心/附加数据进一步划分成多个核心/附加数据子集,以便可以对每一个数据子集进行独立的调整来对模型做出贡献。对于每一个数据子集,VARITY构架首先通过“移动窗口分析”的方法确立一个或多个“数据质量相关因素”变量,然后针对每个变量设定一个Logistic函数并将该变量作为输入值, Logistic函数中的参数将作为“权重”超参数和其他算法相关的超参数一起进行以优化模型在核心数据集上的性能为目标的超参数调优。Logistic函数的输出值将为当前数据子集中的每一条数据分配权重,而最终的模型将在所有已分配权重的训练数据集上建立。

在构建预测人类罕见基因错义变异的VARITY_R模型过程中,研究人员采用了VARITY构架,通过不同的数据库收集到大量的致病性已知的人类错义变体数据集作为训练数据 ,但除了从ClinVar 数据库(有严格的审核流程)采集的数据质量是可以保证的,对提供致病性注释的其他资源 (比如HumsaVAR,HGMD,gnomAD, MaveDB等等)的准确性不太确定。另外,训练数据的质量也会被模型目标数据“代表性”所影响。比如这里旨在建立专门针对人类罕见基因错义变异的模型,这样人类常见基因错义变异也许并不能“代表”人类罕见基因错义变异,其数据质量也就是对于提高模型性能的作用也就不确定了。因此,研究人员仅仅将ClinVar数据库中采集到的人类罕见基因错义变异作为核心数据,而将其他数据库采集到的数据以及ClinVAR数据库中的人类常见基因错义变异作为附加数据。研究人员进一步将核心/附加数据根据数据采集的来源,数据注释(是否致病),以及变异是否罕见划分成若干核心/附加数据子集。每一个子集都确定了数据质量相关因素,比如gnomAD数据库中采集的训练数据子集研究人员使用了“携带同基因合子的人数”作为数据质量相关因素,而从ClinVAR数据库中采集的训练数据子集使用了“验查星数”作为数据质量相关因素。通过超参数调优研究人员确定了和每一个数据质量相关因素相对应的Logistic函数的参数,并为每一个训练数据子集中的数据赋予了最优的权重,继而建立的VARITY_R模型。研究人员同时建立了类似的专门针对人类极其罕见的错义变异的VARITY_ER模型,和VARITY_R的唯一不同就是VARITY_ER仅仅将从ClinVar数据库中采集到极其罕见的人类错义变异数据作为核心数据。

VARITY_R和VARITY_ER模型使用的数据特征包含了进化、蛋白结构以及蛋白质交互作用相关的一系列特征,使用的机器学习算法是梯度提升决策树并采用贝叶斯优化的超参数调优方法。在和20种以上的同类模型在和神经发育疾病相关的新生突变数据集,深度突变扫描实验数据集,以及ClinVar核心数据集(使用嵌套交叉验证)上做的性能对比中,VARITY_R或者是VARITY_ER取得了具有统计显著性的优势。在所有同类模型的预测查准率都调整到90%的情况下,VARITY_R和 VARITY_ER模型比同类模型检测到至少10%以上的致病变体。

研究人员使用VARITY_R和VARITY_ER模型对将近18,000种人类蛋白质可能出现的所有基因错义变异的致病性做了预测,并对每一个变异的预测结果做了夏普利值分析,提供了每一个变异的预测结果中每个特征的贡献。所以的预测结果可以通过varity.varianteffect.org查询并下载。

原文链接:

https://doi.org/10.1016/j.ajhg.2021.08.012

注:本文来自BioArt微信公众号,更多生物领域前沿信息等你来发现!

转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经允许禁止转载,作者拥有所有法定权利,违者必究。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我是回族女人,老公是汉族人,为什么我们的后代都是回族户口?

我是回族女人,老公是汉族人,为什么我们的后代都是回族户口?

云起时说说吖
2024-04-16 08:31:06
滨江集团突传大消息,法人也变更,发生了什么?

滨江集团突传大消息,法人也变更,发生了什么?

金石随笔
2024-04-16 00:07:23
0比3爆冷一轮游!中国女单希望之星淘汰,孙颖莎接班人状态低迷

0比3爆冷一轮游!中国女单希望之星淘汰,孙颖莎接班人状态低迷

体坛知识分子
2024-04-16 06:10:03
媒体人:阿德里安言论大概率是真的,前几年国内联赛假球确实不少

媒体人:阿德里安言论大概率是真的,前几年国内联赛假球确实不少

直播吧
2024-04-16 11:05:16
回顾 男子去相亲,一眼选中长发美女,网友建议:1号更适合当老婆

回顾 男子去相亲,一眼选中长发美女,网友建议:1号更适合当老婆

雅清故事汇
2024-04-15 11:58:10
官宣!巴尔的摩撞桥事件船东正式宣布共同海损,货主将迎天价索赔

官宣!巴尔的摩撞桥事件船东正式宣布共同海损,货主将迎天价索赔

壹航运
2024-04-15 16:20:05
中超首位下课主帅诞生!6战仅3分,教练组集体走人,吴金贵或入替

中超首位下课主帅诞生!6战仅3分,教练组集体走人,吴金贵或入替

体坛春秋
2024-04-15 23:37:44
2001年,F4和杉菜的合影,那时的徐熙媛,多么纯真无邪

2001年,F4和杉菜的合影,那时的徐熙媛,多么纯真无邪

喜文多见01
2024-04-15 12:41:35
3亿美元,太阳拼了!正式宣布签下!仅次于库里的第一射手……

3亿美元,太阳拼了!正式宣布签下!仅次于库里的第一射手……

篮球实战宝典
2024-04-16 06:00:03
原来这届网友才是“小丑”,薛之谦演唱会眼镜男事件大反转!

原来这届网友才是“小丑”,薛之谦演唱会眼镜男事件大反转!

娱乐圈酸柠檬
2024-04-16 07:59:42
拒绝放水!不挑对手!东部最刚之人,他今年能进一阵?

拒绝放水!不挑对手!东部最刚之人,他今年能进一阵?

篮球实录
2024-04-16 12:51:50
“籍贯”是什么?我们为啥要填写“籍贯”?它还有存在的意义吗?

“籍贯”是什么?我们为啥要填写“籍贯”?它还有存在的意义吗?

冬天来旅游
2024-03-21 07:25:03
A股三大指数均跌逾1%,5000股下跌,1100股跌超9%!北交所248股超230股飘绿,微盘股跌9.5%,仅上证50飘红

A股三大指数均跌逾1%,5000股下跌,1100股跌超9%!北交所248股超230股飘绿,微盘股跌9.5%,仅上证50飘红

和讯网
2024-04-16 10:02:27
上海00后整容狂人,花400万“削骨”,整形300多次如今咋样

上海00后整容狂人,花400万“削骨”,整形300多次如今咋样

室内设计师阿喇
2024-04-14 12:40:45
赖清德邀8国正副元首,参加520就职典礼,蔡正元:解放军导弹伺候

赖清德邀8国正副元首,参加520就职典礼,蔡正元:解放军导弹伺候

DS北风
2024-04-16 11:00:16
太讽刺了,闵鹿蕾被陈国豪30分打脸!坑他一赛季,最后还靠他救命

太讽刺了,闵鹿蕾被陈国豪30分打脸!坑他一赛季,最后还靠他救命

嘴炮体坛
2024-04-15 22:04:10
又一大球星伤退,勇士附加赛晋级有变!NBA争冠格局将全面大洗牌

又一大球星伤退,勇士附加赛晋级有变!NBA争冠格局将全面大洗牌

嘴炮体坛
2024-04-16 11:21:14
史上最邪恶的10大发明,到底有多可怕?

史上最邪恶的10大发明,到底有多可怕?

一起神回复
2024-02-26 21:55:52
最新曝光!美国:上帝之杖到底行不行?中国:试过了,不太行

最新曝光!美国:上帝之杖到底行不行?中国:试过了,不太行

军武次位面
2024-04-15 10:46:22
大鹏金像奖口误!教科书式救场引争议:一看就是故意的!败好感!

大鹏金像奖口误!教科书式救场引争议:一看就是故意的!败好感!

小娱乐悠悠
2024-04-16 10:02:15
2024-04-16 13:10:44
BioArt
BioArt
探索生物艺术之奥秘
4607文章数 18359关注度
往期回顾 全部

科技要闻

特斯拉吃老本,马斯克裁14000人,刚开始?

头条要闻

吉林一高校女生带病出操后猝死 校方回应

头条要闻

吉林一高校女生带病出操后猝死 校方回应

体育要闻

他被杨瀚森"打爆" 却有望成为NBA状元?

娱乐要闻

44岁霍建华街头骑单车,状态真好!

财经要闻

同比增5.3%!中国一季度GDP超29万亿

汽车要闻

广汽本田极湃2溜背造型 本田人间清醒!

态度原创

教育
时尚
游戏
健康
亲子

教育要闻

自然拼读运用,dge的发音你会了吗?

比变老更可怕的是不会打扮!跟着这些气质女人穿,一样美到老

玩家正试图计算《辐射》真人剧女主获得多少经验值

这2种水果可降低高血压死亡风险

亲子要闻

这大概是传说中的幼儿职业学院吧,毕业就自带“工龄”! 话说还接收“大龄儿童”不

无障碍浏览 进入关怀版