关注生物学霸,每周更新科研干货哦
MEGA(Molecular Evolutionary Genetics Analysis)是分子进化分析专用集成软件,以图形化界面简化生物信息学分析流程,无需编程基础即可完成序列比对、进化树构建、遗传距离计算等核心操作,广泛应用于病毒溯源、物种分化、基因家族进化等研究领域。其核心优势在于:
支持核苷酸 / 蛋白质序列全流程分析,功能覆盖从数据预处理到结果可视化;
集成邻接法(NJ)、最大似然法(ML)等主流建树算法,适配不同研究需求;
跨 Windows、MacOS、Linux 系统,且完全免费开源。
核心功能一:多序列比对
多序列比对是系统发育分析的前置核心步骤,需确保序列同源性区域对齐。MEGA 支持 ClustalW、MUSCLE 两种主流算法,以下以常用的 ClustalW 比对核苷酸序列为例:
数据准备:
支持格式:优先使用 Fasta 格式(最通用),也支持 Clustal、GenBank 等格式;
数据来源:可从 NCBI GenBank 数据库下载目标序列(主要有核酸序列和蛋白质序列),或使用实验室测序数据。此处以 TP53 蛋白序列为例,尽量选择大小相近的蛋白,然后在右上角的 send to 选择 FASTA 格式下载。
![]()
![]()
2. 详细比对步骤:
导入序列文件:点击主界面「File → Open a File/Session」,选择准备好的 Fasta 文件;
![]()
在弹出窗口中选择 Align;
![]()
然后进行序列规整,单击菜单【Alignment】→【Align by ClustalW】,弹出参数设置窗口,保持默认参数(新手推荐),关键参数说明:
Gap Opening Penalty:10(间隙打开罚分,数值越大越难出现间隙);
Gap Extension Penalty:0.2(间隙延伸罚分,数值越小间隙越长);
DNA Weight Matrix:IUB(核苷酸比对默认矩阵);
点击「OK」,等待比对完成(进度条显示,小规模序列需 1-3 分钟)。
![]()
![]()
比对结果检查与调整:比对完成后自动显示对齐的序列;
检查要点:
同源区域是否连续对齐(无大量错位间隙);
两端冗余序列是否过多(可手动裁剪);
手动调整:选中错位区域,右键选择「Delete」删除无效列。
最后单击菜单【Data】→【Save Session】,保存序列比对的结果。
![]()
![]()
核心功能二:系统发育树构建
MEGA 支持邻接法(NJ)、最大似然法(ML)、最小进化法(ME)等,其中邻接法(NJ)计算快、适用性广,适合新手入门;最大似然法(ML)精度更高,适合发表级分析。下面是具体操作步骤:
1. 把上面保存的 meg 文件拖拽到 MEGA 软件中。
![]()
2. 点击 Phylogeny—— 选择近邻法绘制进化树(Construct/Test Neighbor-Joining Tree),弹框选择 yes;
![]()
3. 参数设置(关键!影响建树可靠性):
弹出「Analysis Preferences」窗口,按以下推荐设置:
Test of Phylogeny:选择「Bootstrap method」(自举检验,评估分支可靠性),设置「Bootstrap replications」为 1000(推荐值,重复 1000 次检验,数值越高越可靠);
Model/Method:选择遗传距离模型,核苷酸序列推荐「Kimura 2-parameter」(K2P 模型,考虑碱基转换 / 颠换差异),蛋白质序列推荐「JTT」模型;
Rate among Sites:新手保持「Uniform rates」(均匀速率,复杂分析可选 Gamma 分布);
Gaps/Missing Data:选择「Pairwise deletion」(成对删除含缺失数据的位点,保留更多有效数据);
点击「OK」开始计算。
![]()
4. 结果解读与可视化:
计算完成后自动弹出结果窗口,显示 NJ 树,可以在上方选择树的样式,例如绘制一个圆形的树,或一个经典的树:
![]()
![]()
核心元素解读:
叶节点:代表输入的物种 / 序列(标注名称与 accession 号);
内部节点:代表推测的共同祖先;
分支长度:表示进化距离(数值越小亲缘关系越近);
Bootstrap 值:分支上的数字(0-100),≥70 表示该分支可靠性高;
5. 结果保存:(适配期刊要求)
导出树形文件:点击「File → Export Current Tree」,选择:
![]()
Newick 格式(*.nwk):用于其他软件(如 FigTree)进一步编辑;
MEGA 格式(*.mts):保存当前会话,便于后续修改。
导出图片:点击 Image,选择高分辨率格式,推荐 PNG(300 DPI)或 TIFF(600 DPI,发表首选);
![]()
常见问题与避坑指南(Q&A)
1. 序列比对乱序,无法建树?
可能原因:序列同源性过低(<50%)或格式错误;
解决方法:
① 用 NCBI BLAST 验证序列同源性,剔除异源序列;
② 检查 Fasta 格式,确保每个序列的「>」后无空格,序列无换行错误。
2. Bootstrap 值普遍偏低(<50)?
可能原因:序列长度过短、样本量不足或比对质量差;
解决方法:① 增加序列长度(≥500bp);
② 补充近缘物种序列;
③ 重新优化比对(删除冗余间隙列)。
3. 建树时提示 「内存不足」?
可能原因:序列数量过多(>100 条)或序列过长;
解决方法:① 分批次分析,先构建核心物种树;
② 关闭其他软件释放内存;
③ 选择计算更快的 NJ 法替代 ML 法。
4. 如何选择遗传距离模型?
核苷酸序列:默认 K2P 模型(通用),若 GC 含量差异大,选 GTR 模型;
蛋白质序列:默认 JTT 模型,若含跨物种序列,选 WAG 模型;
5. 打开 FASTA 文件后,序列名称只显示一部分是什么原因?
可能原因:这是 MEGA 的默认设置,序列名称会显示到第一个空格为止。
解决方法:无需修改文件,点击软件中 「display -> show full sequence names」 选项,即可显示完整的序列名称,避免因名称显示不全误判序列。
6. 报错「Error: MEGA has detected duplicate taxa labels」 该如何处理?
可能原因:该报错是样本分类单元标签重复导致软件无法区分不同样本。
解决方法:提前检查序列文件中所有样本的名称,确保每个标签唯一,可通过添加序号、物种亚种信息等方式修改重复标签,修改后重新导入数据即可。
现添加下方企微,任何实验相关问题都可以咨询哦
小编真人在线热情回复!
题图来源:自制
编辑:冷漠小 z
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.