·AI通过“完形填空”的方式学习基因组中约600万个常见SNP位点之间复杂的相互关联规律,理解遗传的“语法”。
人类基因组里包含着超过30亿个碱基对,如何从中高效、系统地解读出与健康、疾病、体质特征相关的奥秘,一直是现代生物学面临的巨大挑战。人工智能基础模型正成为突破这一瓶颈的关键力量。
1月13日,在上海“模速空间”,基因底座大模型SNPbag正式发布,该模型旨在解决当前基因组学研究中面临的计算效率低、数据碎片化以及预测能力不足等难题,试图通过AI技术“读懂”DNA与人类生命特征之间复杂的关联。模型作者包括上海飞瀑智能科技有限公司、德国莱比锡大学、华大基因研究院、中国科学院等多家单位的研究人员。
人类的DNA序列有99.9%是完全相同的,剩下0.1%的差异造就了我们每个人独一无二的体质、外貌和疾病易感性。这些差异大多以单个碱基变化的形式存在,即单核苷酸多态性(SNP)。SNPbag正是专为分析这些关键差异位点而设计的。
该模型的作者们在相关论文中提到,基于Transformer架构的大语言模型已经改变了生物医学研究。在蛋白质组学中,AlphaFold 能够准确预测蛋白质结构并加速药物发现。在单细胞转录组学中,Geneformer、scGPT 和 scBERT 等模型支持细胞类型注释以及扰动响应预测。在基因组学中,包括 Nucleotide Transformer和 EVO在内的模型能够处理跨多物种的完整基因组序列,用于注释基因组元素。
“相比之下,对于单一物种的基因组数据,例如人类基因组,仍然缺乏能够应对个体之间巨大基因组变异的人工智能基础模型。” 该论文写道。
“我们训练模型的数据,就是这0.1%的人与人之间的基因差别,那些99.9%重复的部分被拿掉了。”该模型的作者之一徐国华告诉澎湃科技,“这使得我们能够节省海量的算力,这也是它与其他一些基因组模型的核心区别之一。”
徐国华曾在德国马克思·普朗克演化人类学研究所做研究,师从2022年诺奖得主、生物学家斯万特·佩博(Svante Pääbo)。他告诉记者,目前仅用SNP数据进行训练的基因大语言模型只有SNPbag,其研发难度主要在于开发者需要对遗传学和大模型都非常了解。
该模型的另一位作者、飞瀑科技创始合伙人兼首席科学家唐鲲在发布会上表示,团队成员的背景多样,包括肿瘤医学、计算生物学等,“既要懂生物又要懂计算,只有这样的团队能把它做出来。”
与当前主流的语言大模型(如ChatGPT)类似,SNPbag也采用了强大的Transformer架构。研究团队用100万个模拟基因组数据对一个拥有8.4亿参数的模型进行预训练,让AI通过“完形填空”的方式学习基因组中约600万个常见SNP位点之间复杂的相互关联规律,理解遗传的“语法”。通过这种学习,SNPbag构建起了一个能贯通多种遗传分析任务的底层能力。
发布会上,唐鲲列举了该模型的多种用处。过去,要分析一个人的祖源、推断其与其他人的亲缘关系、或补全基因测序中的缺失数据,研究者需要使用不同的统计软件,过程耗时且相互独立。SNPbag则将这些任务整合到一个统一的平台之上,模型只需经过少量微调,就能胜任多种下游任务。
发布会演示显示,该模型能精准区分出遗传背景高度相似的人群,也能可靠地推断出远至12代的亲缘关系,其性能在部分任务上已达到或超过传统方法的水平,而计算速度则实现了数十倍乃至上百倍的提升。
SNPbag还展示了一项极具潜力的功能——高效的基因组压缩和加密。一个人的全基因组SNP原始数据包含数百万行记录,给表型预测带来巨大挑战。SNPBag模型能将这些海量信息压缩成38万个数字,还保留了95%以上的核心遗传信息。
![]()
经过压缩后的个人基因组信息。图片来自SNPbag论文
徐国华表示,这38万个数字能够极大降低后续的开发难度,SNPBag有望通过压缩的基因组训练出很多预测表型的能力。此外,一个人的基因组压缩,还能存储在一个仅有0.75MB大小的文件中。这意味着,未来个人的基因组“身份证”或许可以轻松地存储在U盘或手机中,在保障数据隐私和安全的前提下,极大地便利了大规模科研协作和临床应用。
“这个模型是一个起点。”唐鲲表示,其最终目标是建立从基因型到表型(即身高、相貌、疾病风险等个体特征)的精准预测能力。唐鲲团队之前曾开发通过DNA信息预测外貌的算法,在刑侦等领域大有用处。他告诉澎湃科技,采用新的底座模型后,有望提升面部还原算法的准确度和泛化能力。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.