细胞中的每个功能都与特定的蛋白质或一组蛋白质相关,通常具有明确的三维结构。然而,蛋白质的内在无序区域却不符合这种结构-功能范式。
华盛顿大学圣路易斯分校麦凯尔维工程学院的研究团队开发了一种算法,以理解蛋白质中的内在无序区域可能如何被组织成不同的功能类别,这个研究工具可能会大大加深我们对某些癌症如何增殖的理解。
研究员Kiersten Ruff和博士后研究员Matthew King都在麦凯尔维工程学院生物医学工程的Gene K. Beare杰出教授Rohit V. Pappu的实验室工作,他们使用了Pappu实验室之前开发的算法NARDINI+,分析蛋白质内在无序区域(IDRs)的氨基酸序列,揭示和组织所谓的分子语法。
通过无监督学习,Ruff 发现自然发生的序列的语法可以归类为有限数量的簇,每个簇具有特定的功能,这种学习方法能够检测氨基酸使用的非随机模式以及氨基酸在线性序列中的非随机排列。这项研究促成了一个名为 GIN 的资源的创建,即使用 NARDINI+ 推断的语法。研究结果已在 《细胞》 上发表。
在他的实验室研究 IDR 近二十年的 Pappu 说,IDR 挑战了传统思维和传统方法。“如果一个蛋白质区域没有特定结构,那么弄清楚它能执行什么功能以及如何执行这些功能就会变得很困难,”他说。
他的实验室利用物理原理,旨在解读 IDR 氨基酸序列中所包含的信息,以确定特定 IDR 所采用的构象类型是否具有序列特异性。他们的工作揭示了 IDR 可以采用特定类型的结构并执行特定类型的功能,这些功能由氨基酸的组成(即字母表)和特定氨基酸类型的线性排列(即语法)决定。
前博士生梅根·怀特(Cohan)、前博士后研究员申敏京和帕普于2022年介绍了NARDINI算法,该算法以IDR序列作为输入,评估IDR序列中不同语法是否存在非随机性。这表明,关键的二元模式是非随机的,与相似功能相关的IDR在其序列中共享相似的非随机二元模式。
扩展算法及其应用
这促使拉夫与达纳-法伯癌症研究所及哈佛医学院的儿科肿瘤学副教授西戈尔·卡多赫的实验室合作,开发了NARDINI+。拉夫扩大了NARDINI+的使用范围,旨在分析人类蛋白质组中的所有IDR序列。在此过程中,她提出了一个问题:是否存在一组有限的语法在整个人类蛋白质组中使用。
使用无监督机器学习,拉夫发现了一组有限的语法,称为GIN簇群。分析表明,特定的GIN簇与确定细胞中蛋白质的定位偏好相关。它们还帮助解释了分子水平的功能组织,以及关键分子过程(如核糖体的产生,作为蛋白质翻译的机器)的时间顺序。
通过与Kadoch及其学生的合作,团队访问了由布罗德研究所生成的大规模数据,显示之前识别的癌细胞中基因对之间的相关性可以解释为IDR语法的相关性。
癌症研究的测试及其影响
King在Pappu和Kadoch实验室共同工作,他测试了GIN生成的关于IDR语法支持的定位偏好的推断准确性。King表示:“拥有特定语法的IDR似乎是决定蛋白质优选亚细胞位置的一个关键因素,虽然这并不是唯一的因素。”
Ruff说:“从GIN的创建中出现的一个重要见解是,导致特定人类癌症的基因易位是突变颠覆了IDR语法的结果。预测这些改变的语法会导致特定相互作用网络的重新连接,我们现在可以识别这些网络,这将激活细胞增殖程序。”
GIN承诺成为一个有用的研究资源,以指导旨在揭示IDR新信息的研究,Pappu说。它还有潜力设计出能够执行定制功能的合成IDR。展望未来,Pappu和他的同事们正在与Kadoch的实验室紧密合作,设计研究来帮助他们理解如何通过改变IDR语法来驱动人类癌症中的增殖程序。
更多信息: Beth Miller Kiersten M. Ruff等,跨越人类蛋白组的预测内源性无序区域的分子语法,Cell(2025)。 DOI: 10.1016/j.cell.2025.10.019
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.