![]()
当AlphaFold在2020年解决蛋白质折叠问题时,它证明了人工智能能够破解生物学最深奥的谜团之一:氨基酸串如何折叠成功能性分子机器。
这个获得诺贝尔奖的平台背后的谷歌DeepMind团队随后将目光从蛋白质结构转向这些分子在体内的功能机制。他们应用类似的机器学习方法,首先开发了AlphaMissense,这是一个用于预测蛋白质结构变化是否可能导致疾病的AI工具。接下来推出了AlphaProteo,这是一个设计能与特定分子靶点结合的蛋白质系统。
现在,Alpha平台的架构师们正在将研究推向蛋白质之外的基因组学领域,寻求破解DNA庞大调控区域如何塑造基因开启和关闭的时间、位置和方式。
AlphaGenome应运而生。这个被称为"探索非编码DNA的瑞士军刀"的深度学习工具,提供了一种系统性解释基因组中98%非编码区域的方法。这些区域不编码制造蛋白质的指令,而是协调这些遗传指令在细胞内的使用方式。
"这让我们能够以前所未有的精度对复杂过程进行建模,"谷歌DeepMind基因组学负责人Ziga Avsec在发布新工具的新闻发布会上表示。
技术突破与应用
AlphaGenome是最新的,也是最全面的一个战略组成部分。该模型在原始DNA上训练,预测11种帮助确定基因在细胞内如何使用的生物信号。这些信号包括基因是否开启或关闭、基因活动在哪里开始、遗传信息如何编辑、DNA包装的紧密程度、哪些调控蛋白与之结合,以及基因组的远距离区域如何相互作用。
许多这些功能已经有了各自的专业AI工具——用于剪接位点预测的SpliceAI、用于局部染色质可及性的ChromBPNet、用于三维基因组架构的Orca。但这些工具通常是单独使用的,需要研究人员将来自多个来源的结果拼接在一起。
"AlphaGenome用一个更统一的框架取代了这种分散化,更加便利和用户友好——我们希望这能加速科学家的工作流程,"谷歌DeepMind计算遗传学家Natasha Latysheva说。
虽然此前也有尝试在单一模型中捕获各种调控效应的努力,但早期架构如Borzoi和Enformer通常需要在精细分辨率和生物覆盖广度之间做出权衡。
AlphaGenome试图摆脱这种权衡。该模型可以一次处理多达100万个DNA字母,在保持长程调控上下文的同时,仍能在单碱基对分辨率上做出预测。在实际应用中,这意味着它可以询问一个核苷酸的变化如何在基因组的广阔区域中产生连锁反应。
局限性与前景
AlphaGenome确实存在局限性。例如,该工具的训练数据主要来自大宗组织数据集,这限制了它在罕见细胞类型或特定发育阶段的可靠性,纽约纪念斯隆凯特琳癌症中心的计算生物学家Christina Leslie指出。"对新细胞类型的泛化能力是一个巨大的限制,"她说。
当调控区域距离目标基因数十万到数百万个DNA字母时,它也难以捕获远距离效应,Leslie指出。
即便如此,该模型正在帮助科学家优先考虑哪些基因变异最有可能重要,将搜索范围从整个基因组缩小到一套可管理的可测试假设。"这是目前的最先进技术,"Leslie说。
据DeepMind称,全世界已有数千名科学家在使用AlphaGenome,该工具在GitHub上免费提供给学术研究使用。它被应用于各种场景,包括确定癌症和罕见疾病的遗传驱动因子、发现新的药物靶点,以及设计具有定制调控功能的合成DNA链。
"看到AlphaGenome这样的工具出现并且表现远超所有其他探索基因组生物学各个方面的专用算法,真是令人兴奋,"怀特黑德生物医学研究所的生物学家Richard Young说。他曾与谷歌DeepMind在AI协同科学家平台上合作,但没有参与AlphaGenome的开发。"这是一个巨大的加速器。"
该系统的一个"特点"是,Latysheva指出,它偏向于假阴性而不是假阳性,意味着它更可能错过一个真正重要的DNA变异,而不是错误地标记一个无害的变异。"但反过来说,如果它确实预测了强烈的效应,实际上是非常准确的,"她说。所以,当模型给出强烈预测时,"你可以有相当的信心相信它知道自己在做什么。"
Q&A
Q1:AlphaGenome是什么?它能做什么?
A:AlphaGenome是谷歌DeepMind开发的深度学习工具,被称为"探索非编码DNA的瑞士军刀"。它能够系统性解释基因组中98%的非编码区域,预测11种生物信号来确定基因如何在细胞内使用,包括基因开关、活动起始点、遗传信息编辑等功能。
Q2:AlphaGenome比其他基因组分析工具有什么优势?
A:与需要单独使用多个专业工具不同,AlphaGenome提供了一个统一框架,能一次处理多达100万个DNA字母,在保持长程调控上下文的同时实现单碱基对分辨率预测,既便利又用户友好,能加速科学家的工作流程。
Q3:AlphaGenome有哪些应用和局限性?
A:它被应用于确定癌症和罕见疾病的遗传驱动因子、发现新药物靶点、设计合成DNA链等。但存在局限性:训练数据主要来自大宗组织,在罕见细胞类型中可靠性有限;难以捕获距离目标基因数十万到数百万字母的远距离调控效应。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.