
在单细胞水平上测量蛋白质丰度可以促进对细胞过程和疾病进展中的生物机制的高分辨率理解。然而,目前的单细胞蛋白质组技术面临着诸如覆盖范围有限、通量和灵敏度受限、批量效应、高成本和严格的实验操作等挑战。
2025年11月5日,腾讯AI Lab姚建华、杨帆、香港城市大学Ka-Chun Wong共同通讯在Nature Biomedical Engineering(IF=26.7)在线发表题为“A pre-trained large generative model for translating single-cell transcriptomes to proteomes”的研究论文,该研究开发了一种用于将单细胞转录组翻译成蛋白质组的预训练大型生成模型。
![]()
自从单细胞转录组测序(scRNA-seq)技术1出现以来,对生物过程的研究已经进入单细胞分析时代,主要集中在转录组。虽然scRNA-seq方法提供了对各种生物系统中转录组景观的见解,但它们作为蛋白质水平的代表的读数仍然受到限制。这是因为只有大约40%到60%的蛋白质丰度变化可以用大量数据中相应的信使RNA水平来解释。在单细胞水平上,这一挑战因细胞间转录状态、翻译速率和蛋白质转换的差异而进一步加剧。然而,作为细胞过程的主要驱动力,蛋白质水平对于捕捉细胞分化和命运决定、细胞信号通路和疾病进展的分子机制是必不可少的。然而,单细胞蛋白质组学的技术限制阻碍了相应数据的广泛生成和分析。一个潜在的解决方案可能涉及从大量数据中挖掘RNA和蛋白质之间的关系,使用计算方法根据scRNA-seq数据预测蛋白质。
大规模预训练模型在自然语言处理(NLP)和计算机视觉领域显示出令人印象深刻的生成和理解能力,进一步推进自然科学。虽然最近的研究报告了单细胞跨模式预测的传统机器学习方法的进展,但大规模预训练模型的开发仍然是一个未知的领域,值得探索。鉴于传统机器学习方法的固有局限性,如依赖人工特征工程、易受数据稀疏性影响和泛化能力受限,有必要研究大规模预训练模型的潜力,以克服这些挑战并推动单细胞多组学研究领域的进步。
![]()
scTranslator及其下游应用概述(图源自
Nature Biomedical Engineering
受自然语言处理和遗传中心法则中翻译过程的启发,研究人员提出了一个预先训练的大型生成模型,名为单细胞翻译器(scTranslator)。scTranslator可以根据转录组推断缺失的单细胞蛋白质组,从而生成多组学数据。通过对独立数据集进行系统基准测试和验证,确认了 scTranslator 在各种分析技术(例如 CITE-seq、空间 CITE-seq、REAP-seq、NEAT-seq)、细胞类型(例如单核细胞、巨噬细胞、T 细胞、B 细胞)、组织(例如血液、肺、脑)和各种疾病背景(包括感染性、代谢性和肿瘤性疾病)中的准确性、稳定性和灵活性。此外,scTranslator 在协助各种下游分析和应用方面显示出其优越性,包括泛癌数据中的基因/蛋白质相互作用推断、扰动预测、细胞聚类、批量校正和细胞起源识别。总之,scTranslator可以在高分辨率水平上提高对调控和相互作用关系的理解,并促进单细胞多组学分析的研究。
参考信息:
https://www.nature.com/articles/s41551-025-01528-z
编辑、审核:艾克旦
版权声明:本文由“TOP大学来了”综合自“iNature”,文章转摘只为学术传播,如涉及侵权问题,请联系我们,我们将及时修改或删除。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.