全基因组关联分析(Genome wide association study,GWAS)是对多个个体在全基因组范围的遗传 变异(标记)多态性进行检测,获得基因型,进而将基因型与可观测的性状/表型进行群体水平的 统计学分析。根据统计量或显著性p值筛选出最有可能影响该性状/表型的遗传变异(标记),进 而挖掘与性状相关的基因。
GWAS分析方法介绍
GWAS 分析一般会构建回归模型,用以检验标记与表型之间是否存在关联。具体如下:
1、零假设(H0null hypothesis):标记的回归系数β为零, 标记对表型没有影响。
2、 备择假设(H1,也叫对立假设,Alternative Hypothesis) : 标记的回归系数β不为零, SNP和表型相关。
3、如果H0成立的概率很低(5%,%1),拒绝原假设,接受备择假设。
GWAS分析模型介绍
GWAS 分析模型有多种,这里主要介绍两种模型:
1、一般线性模式GLM(General Linear Model):
y = Xα + Zβ + e
2、混合线性模型MLM(Mixed Linear Model):
y = Xα+ Zβ + Wμ+ e
注:
y:所要研究的表型性状;
Xα:标记效应(Marker Effect SNP), 固定效应;
Zβ:群体结构,固定效应(Fixed Effect), Q矩阵;
Wμ:个体间的亲缘关系,随机效应(Random Effect) ,K矩阵;
e:残差,随机效应。
GWAS分析常用软件
GWAS关联分析用到的软件有多种,每种软件针对不同的性状数据其关联定位效果不同。这里简单的介绍常用的几款软件。
1、Plink:功能很多,常用的功能包括:标记过滤、样本过滤、LD计算、
卡方检验、 逻辑回归、简单线性回归、fisher检验等,复杂模型无法实现。 适应于人类(case/control)关联分析, 动植物群体不建议使用该软件进行关联分析;
2、Tassel:发布较早的动植物关联分析软件,可以实现的模型:GLM、MLM、CMLM等;对于大群体、大标记量的项目内存消耗高,速度慢;
3、GAPIT:主要是基于R环境的关联分析软件,可以实现的模型很多:GLM 、MLM、CMLM、ECMLM等;对于大群体,大标记量的项目内存消耗高,速度非常慢;
4、Emmax:主要用于实现emmax模型,内存消耗少,速度快;
5、GEMMA:可以实现LM、LMM、bsLMM模型,内存消耗少,速度快;6、其他:Fast-LMM,BOLT-LMM,GCTA,mrMLM等。
1张图告诉你GWAS分析的5大步
做GWAS分析,从材料到结果一共有5大步:样本收集、基因分型、性状调查、关联分析、功能验证。
对于初次接触GWAS分析的人来说,样本的选择和性状数据调查尤其重要。
样本选择:
一般来说群体大小至少200个,且样本间不能有明显的亚群分化(例如生殖隔离等)即遗传背景差异小。如果样本间存在亚群分化,则每个亚群建议样本量在200个以上。
性状数据:
精确的表型检测是关联分析的关键,目标性状选取建议选择遗传力高的性状。性状数据分为三类:
1、数量性状:多基因控制,能够测量得到具体数值,符合正态分布;考虑到数量性状受环境影响大,建议将所有材料在同一环境下培育或养殖,或者用多年多点的数据分开分析后综合结果或取BLUP值作为性状值进行关联分析;
2、质量性状:单基因控制,无法用具体数值衡量,可转换成0、1等表示;
3、 分级性状:表型分布类似质量性状,但实际受多基因控制(数量性状),如抗性性状,因此需要提供每一个个体精确的测量数据。
想了解学习更多群体进化及GWAS分析相关知识,扫描下方二维码报名参加组学大讲堂8月12日-14日举办的《群体重测序遗传进化+GWAS分析实操》线下培训(南京站)。适合在做以下研究的学员:群体育种和群体进化(驯化机制,适应性进化,种群历史交流)及全基因组关联分析(GWAS) 等相关研究。让你的群体研究快人一步!
更多培训安排可以加微信“omicsclass001”联系王老师进行咨询!
测序、数据分析、课程培训等事宜请联系邮箱:Tech@biomics.com.cn
听说点在看会发大文章
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.