网易首页 > 网易号 > 正文 申请入驻

浙大AI“女娲”破译基因组“暗物质”,创世界首例AI治疗性位点!

0
分享至

人类基因组计划完成20多年来,超过九成的非编码序列仍是未破译的“天书”,是基因组的“暗物质”。近日,浙江大学医学院郭国骥、韩晓平教授团队在《细胞》发布最新成果,其自主研发的AI生物大模型“女娲CE”(NvwaCE),为破译非编码序列提供了全新的工具。

据悉,女娲CE大模型能从一级DNA序列出发,精准预测脊椎动物基因突变对细胞的表型影响,精度达单细胞级,准确率超90%。此外,它还成功预测并经实验验证了罕见病镰刀型贫血症的基因治疗位点,成为世界首例AI设计的人类疾病治疗性位点。

“通过深度学习,那些人类暂时无法理解的复杂语法,正在被AI学习、解析。”郭国骥就课题最新进展,接受了文汇报记者专访。

单细胞图谱,让AI大模型有了“精品教材”

人类几乎所有具体的生理机能都依靠蛋白质来完成。在人类基因组中,编码序列(对蛋白质进行编码,直接表达为蛋白质)仅占1-2%,剩下的98%都是非编码序列(不会直接表达为蛋白质,包含调控序列)。

这98%的非编码序列,在很长一段时间内无法被理解。近年来,随着AI发展和生物学研究的深入,科学家们发现,这些序列对基因的表达调控,有可能被解读。

“生命科学研究长期以‘还原论’为主,也就是科学家会将某个表型还原到某个基因,研究它的调控和功能。但进入调控序列,这种方法就行不通了。”郭国骥解释,非编码序列有一套复杂精密的“语法系统”,决定了哪个基因在何时、何地、以何种强度表达。每一个调控序列的碱基,都可能在不同时间、不同类型细胞中扮演不同角色。因此,用传统敲除验证的方法,就像盲人摸象。

2020年,郭国骥团队完成了小鼠和人类细胞图谱的一系列工作,他们开始思考从生物的一级DNA序列寻找细胞图谱的编码模式。当时,传统学界并不理解。“凭什么一级DNA序列就会决定终极表型?”但郭国骥认为,生物的表观、表型等复杂现象之“因”,深植于DNA序列本身。从一级DNA序列出发,研究生物表型,远比直接研究生物表型特征之间的联系更能找到本质规律。

传统表型检测外貌、身高、指纹之类的宏观表型。郭国骥则将之精细到单细胞级别的分子表型。“单个细胞里面的分子是什么?我们测的是这种‘没有偏见’的分子表型。”

为此,团队在传统的ATAC测序技术上自主研发出超高灵敏度、超高通量的单细胞级测序技术UUATAC-seq,使测序灵敏度在理论上提升了4倍,通量提升了10到100倍,可以在单日内高效绘制一个物种所有类型细胞核中的染色质可及性图谱。以此为基础,团队科学家绘制出涵盖哺乳类、鸟类、两栖类、爬行类、水生类五大类脊椎动物的单细胞图谱数据集。

通过研究范式创新获得高质量的数据,是这个团队的核心科研优势所在。据介绍,国外许多顶尖的基因组AI模型,比如近日Deepmind团队预发表的AlphaGenome,都是基于ENCODE项目进行数据训练。由于该数据集年代久远、最长已超过20年,其涵盖的基本是“群体细胞”“器官细胞”或者在体外培养的“细胞系”数据,存在分辨率低、不同类型细胞混杂的问题。用这样的数据集训练AI,好比用一本内容模糊、混杂的教材教学生。

相较而言,女娲CE的训练集堪称“精品”,所有数据在同一技术标准下产生,精度达到单细胞级别,数据噪音更少,有高度的可比性与纯净性。

“可以说,我们为AI提供了迄今为止最适合学习基因调控语法的训练集。”郭国骥说。

更高精度带来惊人发现:“生命语法”比DNA序列本身更保守

与依赖大量数据、超长扫描窗口(读长)的生物深度学习算法不同,女娲CE采用多任务框架、超短扫描窗口,直接学习从一级DNA序列到生物体所有类型细胞表型的映射关系。“AI学到了一些我们人类暂时无法理解的复杂规则。”郭国骥说,通过这种规则,就能让基因组的“暗物质”开口说话,进而预测基因突变带来的后果。

借助女娲CE,以500碱基对(简称bp)的“短窗口”进行分段扫描,团队发现,在亿万年的演化长河中,脊椎动物的基因“调控语法”比其核苷酸序列本身更为保守。

“这意味着,在进化过程中,即使物种的某段调控序列和过去已完全不同,但它们最终行使的功能依然类似。”郭国骥说,这一发现对达尔文进化论中的“随机突变”提出了重要补充:脊椎动物的基因组突变并非完全随机,适者生存并非仅仅依靠环境筛选,还有一套深刻的内在调控语法约束着进化过程。“任何跳出这套语法的突变,可能胚胎都无法形成。它在接受自然选择前,就被生命底层的逻辑淘汰了。”

这一发现本身,也成为了女娲CE算法的重要组成部分,让它拥有超高泛化能力。女娲CE能够从基因组序列出发,预测未经训练物种的细胞染色质可及性蓝图,并一次性预测了包括人、猴、牛、猪、马、羊、熊猫七个物种的单细胞调控原件蓝图。

女娲CE的正式发表,也意味着中国科学家团队在AI基因组大模型研发的赛道上已先人一步。团队表示,相关数据和模型本身,将会全部开源。

世界首例AI预测基因位点成功,开拓基因治疗新路径

要知道,很多遗传性疾病、罕见病,都是因为细胞的表型异常。以往,当科学家们试图通过基因编辑手段治疗这些疾病,只能通过“神农尝百草”的方式,不断尝试,尝试几百、上千次都不算多的。但是,有了AI,就可以根据异常表型特征,让AI预测哪些基因位点最有可能让表型恢复正常。

针对镰状细胞病,女娲CE就预测出了治疗关键位点:胎儿血红蛋白基因HBG1-68:A>G。这是一个全新的、从未被记录过的位点。进一步实验显示,该位点在基因编辑后能够实现胎儿血红蛋白表达量的显著提升,这也是科学家首次在人类细胞中验证了基因组AI预测的功能性位点。

除了“女娲”,还有“华佗”“神农”……郭国骥坦言,他偏爱用中国传统神话为自己的算法命名,这既是对传统文化的致敬,也寄托了一种希望。“AI或许最终会超越人类,向着‘神性’发展,就像神话中的女娲抟土造人,帮我们理解乃至创造生命,解决人类的难题。”

郭国骥团队的下一步计划,是构建虚拟细胞,将调控元件模型与网络模型、蛋白质结构模型等模块整合,创造出“数字小鼠”乃至“数字人类”。有了这样的“数字生命”,科学家就可以高效进行虚拟实验,测试基因突变的影响或筛选疾病药物和治疗位点,从而大幅缩短研发周期、降低成本,并极大减少实验动物的使用,让未来的临床试验更安全、更精准。

业余时间,郭国骥还是一位歌者。他创作的歌曲《生命》中,有这样一句歌词:“宇宙浩瀚无穷尽,却不及她的珍贵……该如何解开基因的密锁,该如何理清神经的网络,千山万水寻寻觅觅,春去秋来上下求索。”那张调色盘般的封面图,正来自2020年他在《自然》发表的世界第一份全面的人类细胞图谱。

为生命求索,中国科学家从未停下前进的脚步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
长春亚泰6比0成都蓉城!重返中超稳了?上演一天两胜,打出统治力

长春亚泰6比0成都蓉城!重返中超稳了?上演一天两胜,打出统治力

罗掌柜体育
2026-02-01 15:03:02
大破防!华裔二代怒撕父母:你们当初移民美国,我们错过中国发展

大破防!华裔二代怒撕父母:你们当初移民美国,我们错过中国发展

星星会坠落
2026-01-31 23:18:10
果然不出所料!委内瑞拉正式宣布了!

果然不出所料!委内瑞拉正式宣布了!

达文西看世界
2026-01-31 19:13:13
HWG!罗马诺:博加租借加盟尤文,含500万欧非强制买断条款

HWG!罗马诺:博加租借加盟尤文,含500万欧非强制买断条款

懂球帝
2026-02-01 11:35:10
90多岁日本奶奶连续在一家公司干了快70年!会长甚至还当她“小弟”?

90多岁日本奶奶连续在一家公司干了快70年!会长甚至还当她“小弟”?

日本通
2026-01-30 10:33:54
“硅基少女”现身上海,全球首款完全仿生具身智能机器人Moya发布

“硅基少女”现身上海,全球首款完全仿生具身智能机器人Moya发布

IT之家
2026-01-31 11:52:08
不查不知道一查吓一跳,坐拥北京60亩马场的于谦,私下到底有多壕

不查不知道一查吓一跳,坐拥北京60亩马场的于谦,私下到底有多壕

小熊侃史
2026-01-20 07:40:05
警惕!仙人跳3.0杀疯了,专坑老实人,一次私了就可能毁终身

警惕!仙人跳3.0杀疯了,专坑老实人,一次私了就可能毁终身

老特有话说
2026-01-29 23:44:15
中资港口双线告急!美式霸权“黑手”伸向全球,中国岂能坐视?

中资港口双线告急!美式霸权“黑手”伸向全球,中国岂能坐视?

无情有思ss
2026-02-01 15:23:37
77年邓华复出,叶剑英问他有何要求,邓华:让我老哥重回部队工作

77年邓华复出,叶剑英问他有何要求,邓华:让我老哥重回部队工作

兴趣知识
2026-02-01 08:24:57
终于是时候了!2026老旧小区加梯新规,1楼6楼都支持,不用再吵了

终于是时候了!2026老旧小区加梯新规,1楼6楼都支持,不用再吵了

老特有话说
2026-01-30 23:03:43
后悔也晚了!大批F35逼到家门口,伊朗却发现红旗9和歼10还未到位

后悔也晚了!大批F35逼到家门口,伊朗却发现红旗9和歼10还未到位

文雅笔墨
2026-01-25 03:11:20
“很晦气,这房子不敢住了!” 杭州夫妻买房2年后得知一个消息,想退房了

“很晦气,这房子不敢住了!” 杭州夫妻买房2年后得知一个消息,想退房了

潇湘晨报
2026-01-31 10:38:17
上海明确:今年确保新增就业60万人以上,帮助2万名长期失业人员实现再就业

上海明确:今年确保新增就业60万人以上,帮助2万名长期失业人员实现再就业

纵相新闻
2026-02-01 03:17:18
国产半导体,具备“唯一性”的10家公司,机构扎堆抢筹(附名单)

国产半导体,具备“唯一性”的10家公司,机构扎堆抢筹(附名单)

白浅娱乐聊
2026-02-01 14:55:44
最新民调:郑丽文信任度28.7%、不信任度53.5%。真是弱鸡一只

最新民调:郑丽文信任度28.7%、不信任度53.5%。真是弱鸡一只

我心纵横天地间
2026-01-31 13:20:47
“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

巧手晓厨娘
2025-12-30 18:59:18
大量变压器工厂已经处于满产的状态 其中部分面向数据中心的业务订单已排到2027年

大量变压器工厂已经处于满产的状态 其中部分面向数据中心的业务订单已排到2027年

财联社
2026-01-31 19:20:12
牢A命中,被一窝端16人都是女留学生

牢A命中,被一窝端16人都是女留学生

雪中风车
2026-01-28 13:23:54
本书当年在地下被广泛传抄,影响了一代人(刺痛,却令人清醒!)

本书当年在地下被广泛传抄,影响了一代人(刺痛,却令人清醒!)

尚曦读史
2026-01-29 07:07:36
2026-02-01 16:08:49
文汇报 incentive-icons
文汇报
华语世界高品质人文阅读平台
269617文章数 309868关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

马斯克曾问爱泼斯坦:岛上哪一晚会有"最疯狂的派对"

头条要闻

马斯克曾问爱泼斯坦:岛上哪一晚会有"最疯狂的派对"

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

教育
亲子
房产
公开课
军事航空

教育要闻

10秒钟学会绝对值

亲子要闻

弥勒融媒研学太有趣!小朋友们坐上消防车的梦想实现啦!

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版