趋同进化是指在进化过程中,两个或多个物种谱系中独立、重复地出现相同性状的现象,通常反映了对特定环境因素的功能适应性。解析生物功能趋同的遗传基础是破译蛋白质复杂序列-功能关系图谱的重要途径,目前已涌现出多种计算方法。这些方法大多聚焦于功能相关蛋白质在单个位点水平上的氨基酸状态趋同。然而,即便缺乏位点水平的序列相似性,蛋白质功能相似性仍可能源于高阶蛋白质特征的趋同,而传统方法无法捕捉此类信息。
近日,中国科学院动物研究所邹征廷独立通讯在PNAS(IF=9.4)在线发表题为“Language models reveal a complex sequence basis for adaptive convergent evolution of protein functions”的研究论文。该研究首先通过预训练的蛋白质语言模型(PLM)从蛋白质序列中提取数值嵌入向量。
在四个已报道的案例中,作者发现尽管不存在位点水平的趋同,功能趋同的蛋白质仍具有相似的嵌入向量,表明PLM嵌入能够反映高阶蛋白质特征的趋同。基于此,作者开发了基于蛋白质嵌入的自适应趋同检测流程(ACEP)。ACEP检测在已知及新发现的候选基因(如与回声定位及景天酸代谢相关的推定适应性趋同基因)中均呈现显著信号。全基因组应用表明,ACEP框架可有效富集此类候选基因。作者进一步探究了PLM嵌入趋同与特定蛋白质理化特征之间的关联。综上所述,PLM嵌入能够指示超越位点一致性的高阶蛋白质特征适应性趋同,彰显了深度学习工具在解析分子序列与功能间复杂映射关系中的强大潜力。
![]()
趋同进化是指两个或多个物种谱系在演化过程中独立演化出相同性状状态的生物学现象。例如,某些蝙蝠物种与所有齿鲸均具备发射和感知超声波的能力,而这两个进化距离遥远的谱系共同祖先并不具备该能力,这表明回声定位能力在两个谱系中的出现符合趋同进化的简约解释。由于在进化过程中偶然达到相同性状状态的概率较低,生物性状或生物分子功能的趋同现象通常被认为是对相似环境因素或生活方式的适应结果,因此成为进化生物学的重要研究主题。以回声定位为例,这种趋同演化能力有助于蝙蝠和齿鲸在弱光环境中觅食。
基因型-表型关联(GPM),即序列-功能关联,是理解功能如何通过进化产生与变化的核心生物学概念。当观察到表型或功能趋同现象时,探究其分子序列水平的遗传基础是否同样存在趋同进化显得尤为关键。例如,李等人发现基于Prestin蛋白氨基酸序列构建的系统发育树将回声定位蝙蝠与宽吻海豚聚类在一起,表明这两个谱系间的序列相似度超出了非适应性中性进化的预期范围,提示适应性序列趋同可能是回声定位功能趋同的分子基础。具体而言,研究在这两个谱系的Prestin蛋白第7位点均发现了天冬酰胺向苏氨酸的趋同替换(N7T),后续实验证实该替换与回声定位功能相关。
目前已开发多种分子进化策略来检测功能趋同背后的位点水平序列趋同,包括基于位点特异性似然支持的谱系趋同检测(ΔSSLS)、趋异与趋同比率法、观测与预期趋同比率法、非同义与同义替换趋同比率法(Csubst)、保守位点趋同检测(CCS)、至少包含一个位点变化的氨基酸谱系变化法(PCOC),以及氨基酸状态与数量性状相关性分析法(CAAS)等。尽管已有大量蛋白质功能相关位点趋同的报道,这些现有方法存在重要局限:所有策略均聚焦于位点水平的序列变化。然而已知GPM具有复杂性,涉及位点间广泛的交互作用,且不同序列可能映射至相似功能。因此,蛋白质功能趋同并不必然要求位点水平的序列趋同。例如,在适应高原低氧环境过程中,多种高海拔水禽的血红蛋白(Hbs)均趋同地表现出高氧亲和力特性,但其对应的血红蛋白氨基酸序列仅显示有限的位点水平趋同,且这些位点大多与氧亲和力变化无关。由于序列进化过程存在异质性或谱系特异性,生物功能趋同很可能通过蛋白质序列高阶特征的趋同来实现,同时呈现差异化的位点水平模式。事实上,确实存在蛋白质物理化学特性或结构趋同但位点水平无相似性的案例。
![]()
模式流程图(图片源自PNAS)
如何检测蛋白质中此类高阶特征的适应性趋同?当前常规蛋白质序列进化模型通常描述单个氨基酸位点的动力学,无法解析位点间上位效应或二级结构等高阶特征。因此,作者探索了近期预训练蛋白质语言模型(PLM)的统计能力——这些模型能捕获序列中位点的上下文模式,并已被证明可编码用于预测空间接触、蛋白质结构和功能的高阶特征。作者在固定参数的大型蛋白质语言模型ESM-MSA-1b基础上训练神经网络编码器,以获取任意蛋白质序列的定长数值嵌入表示。通过在多个已知案例中的验证,作者证明这些嵌入能够反映具有功能趋同蛋白质的高阶特征相似性,尽管其位点水平存在差异。作者进一步开发了蛋白质嵌入适应性趋同检测流程(ACEP,https://huggingface.co/NEO699700/ACEP),通过对比焦点物种谱系蛋白质与模拟零分布的PLM嵌入相似性来检测异常趋同。
作者将ACEP检测应用于具有植物景天酸代谢(CAM)趋同特性的特定候选蛋白,以及回声定位哺乳动物的全基因组蛋白质集合。除了在已知候选蛋白中观察到显著ACEP信号外,新发现的回声定位潜在适应性趋同基因呈现富集现象。作者还通过多案例验证了PLM嵌入趋同与特定蛋白质高阶特征间的潜在关联。作者的研究结果强调了高阶蛋白质特征在生物功能趋同进化中的普遍作用,提供了检测适应性蛋白质趋同的计算框架,并证明了深度学习方法在捕获进化序列特征及解析复杂GPM方面的强大能力。
https://doi.org/10.1073/pnas.2418254122
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.