就在今天,谷歌DeepMind开源人类底层代码!
![]()
AlphaGenome登上了Nature封面,标志着 DeepMind 在生物计算领域继 AlphaFold 之后再下一城。
相较于同类模型,AlphaGenome能够一次性输入100万个碱基对,并在单碱基对的精度上预测数千种表征其调控活性的分子特性。
这是DNA领域的里程碑式突破。
如今,AlphaGenome只需读入一段DNA序列,提取调控基序与表征活性,便可对数千种分子特性高度预测。
该研究也得到了医学大佬的认可,美国医学院院士,斯克里普斯研究转化研究生的创始人和主任Eric Topol表示,这是AI在生命科学方面的又一大进步。
早在2025 年6月,DeepMind就率先在 bioRxiv 发布 AlphaGenome 预印本并推出 API,目前已经有来自160个国家的3000多名研究人员使用。
如今,该成果被《自然》正式刊发,团队正式对外开源了全部研究代码和模型权重。
![]()
开源地址:
https://github.com/google-deepmind/alphagenome_research
我们可以期待,在完全开源的情况下,有多少人类基因秘密被科学家们解开。
![]()
解锁人类98%的“垃圾基因”
AlphaGenome由 Google DeepMind 的负责人 DemisHassabis 领导,他此前凭借 蛋白质模型 AlphaFold2 , 获得 了 2024 年诺贝尔化学奖。
![]()
Demis Hassabis曾放出豪言:「未来十年,AI将治愈所有疾病」。
而AlphaGenome出世意味着,人类向理解生命本质又迈进一大步。
要知道,距离全球科学家完成人类基因组测序,已经过去了23年了。
但迄今为止,科学家仍然没能解开DNA的秘密。
以往的观点认为,人类DNA仅有2%,剩下的98%都是DNA都是“无用”的非编码区。
然而,现在剩下的98%并非是无用的基因,其中蕴含着丰富的调控信息,包括调控基因开关、影响胚胎发育、参与形成特殊RNA、维持染色体结构等。
因此AlphaGenome,其核心意义正是为了解码这98%的“暗物质”区域。
它能够系统预测非编码DNA序列的功能和变异影响,帮助科学家从海量无用信息中高效筛选出真正具有生物学意义的宝藏,从而理解疾病机制、助力药物研发。
![]()
解开人类底层密码
该模型基于Google DeepMind 的基因组学模型 Enformer 构建,采用Loop-aware 架构,并和此前推出的预测编码区变异的AlphaMissense互补。
同时,AlphaGenome整合了人类和小鼠的基因组数据,包含5930 条人类以及1128 条小鼠基因组信号,这些信号与基因表达、DNA 可及性和剪接等功能相关。
![]()
这也让AlphaGenome做到了以往同类模型到达不了的高度。
1、又长又精准,100万碱基对的长序列输入
此前的模型要么能处理长序列但分辨率低(如Enformer和Borzoi),要么分辨率高但只能处理短序列(如SpliceAI和BPNet)。
但AlphaGenome它一次就能扫描长达100万个DNA碱基对的广阔区域,与此同时它做到了能够预测到单个碱基对的精度
2、多模态大模型,多个任务一次搞定
现有模型要么专注于单一任务,例如剪接预测等,要么是多模态但某些任务表现不佳。
而AlphaGenome能够做到一次输入后,可以同时预测基因变体对数千种基因组的影响,包括基因表达、组蛋白修饰、剪切等各个方面,科学家不用再切换多个工具了。
更重要的是,AlphaGenome做到了性能全面领先。
对单条DNA 序列进行预测时,AlphaGenome 在 24 项评估中有 22 项表现优于最佳外部模型。
而在预测变异的调控效应时,它在 26 项评估中有 24 项表现与最佳外部模型相当或更优,尤其在预测eQTL方向上,比此前最佳模型提高超25%。
![]()
RNA剪贴错误是造成疾病的常见原因,AlphaGenome的创新性在于,能够直接从序列预测剪切点。
在7个权威的剪接变异基准测试中,AlphaGenome在其中6个上实现了SOTA 性能,包括根据ClinVar、sQTL因果关系和GTEx剪接异常值预测剪接变异的致病性。
![]()
除了能够预测多种分子特性外,AlphaGenome还能在一秒钟内高效评估一个基因变异对所有这些特性的影响。
它通过对比突变序列与未突变序列的预测结果,并针对不同模态采用不同方法高效总结这种对比来实现这一功能。
不仅如此,对比此前的预印本,DeepMind团队还优化了以下内容。
![]()
![]()
更好地理解生命
就在论文发布同一天,DeepMind还上传了一支视频,邀请团队对该工作进行分享。
![]()
针对后续如何完善AlphaGenome,团队表示:
1、
拓展对
复杂变异类型的预测支持,
使模型能解读更真实的临床与科研遗传变异,覆盖更多疾病机理
2、
提升易用性,
将数千个复杂评分汇总为更易解读的单一评分
3、拓展数据与物种范围,目前只包含人类和小鼠,未来可能
纳入
更多物种
更多细胞类型
的数据
这些都将进一步提高AlphaGenome在实际科研中的实用性。
从AlphaFold再到AlphaGenome,DeepMind打开了一扇窥见生命与疾病最根本过程的窗口。
近期科技女皇木头姐的一份报告,再次点燃了人们对AI+医疗保健的热情。
报告预测,到2030年,测序整个人类基因组的成本可能下降约十倍,降至10美元(如今约100美元)。
![]()
测序成本降低将导致数据量增长10倍,意味着人类基因数据将远远超过现有的数量。
当然,海量数据本身不是价值,解读才是。
AlphaGenome正是为解读数据中最复杂、信息量最大的DNA序列而生,能将原始数据转化为可理解的生物学知识。
当前,AlphaGenome已经学会了DNA的基本原理,未来有望为为罕见病诊断、癌症精准医疗、药物靶点发现提供新途径。
包括但不限于:
发现新的疾病标记物和药物靶点(尤其是在非编码区)
解释患者基因检测结果,指导精准用药
设计合成生物学元件,为基因疗法和细胞疗法提供设计工具
此外,它在预测RNA剪接异常等方面的能力,对于理解许多罕见病和癌症至关重要,能直接推动相关药物研发。
可以预见,未来的多组学AI平台可能会集成类似AlphaGenome的先进基因组模型,使其与蛋白质、代谢组等模型协同工作,形成一个统一的生命系统模拟与预测环境。
届时,人类不只是能够获得DNA数据,而是真正理解生命的运行。
—The End—
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.