网易首页 > 网易号 > 正文 申请入驻

谷歌用上中国“神器”,AI+高质量基因测序数据,让基因变异无处隐藏

0
分享至


编辑丨王多鱼

排版丨水成文

当我们在谈论人工智能(AI)如何变革基因组学时,讨论的焦点往往集中在算法模型多么精妙、算力如何强大。但一场由Google Research团队举办的最新线上研讨会,却将聚光灯打向了一个更为基础、却常被忽视的要素——基因测序数据本身的质量


这场名为:Scaling Genomics with Higher Throughput and AI-Driven Variant Calling 的技术研讨会,系统展示了 Google 开发的一系列高性能 AI 变异检测工具 DeepVariant、DeepConsensus、DeepSomatic 等的最新进展。引人注目的是,当这些顶尖AI工具遇上了来自华大智造/Complete Genomics的DNBSEQ平台的高质量数据,产生了“1+1>2”的卓越效果。

在进一步解读之前,我们先快速了解几个关键指标,方便理解后续数据:

  • Mean Identity(平均序列一致性):简单来说,就是测出来的 DNA 序列和真实基因组究竟有多像。这个数字越高,代表测序本身的原始错误越少,数据越“干净”。

  • Indel(插入缺失):指‌ 1-50 bp‌的小片段 DNA 的插入(Insertion)和缺失(Deletion),是基因变异的一种类型,也是测序中容易出错的地方。

  • Homopolymer(同源聚合物):像“AAAAAA”这样一长串相同碱基的区域,这里是所有测序技术的“噩梦区”,极易出错。

  • False Negative(假阴性):该检出的变异实际未检出,也就是漏检。

  • False Positive(假阳性):没有变异的位置检出变异,也就是错检。

明白了这些,让我们看看这场研讨会揭示了哪些关键洞察。

更优质的起点,更高的天花板

研讨会上首先比较了不同测序平台数据的Mean Identity(平均序列一致性)。结果显示,在采用先进的泛基因组图(Pangenome Graph)进行比对时,华大智造最新款超高通量测序仪 DNBSEQ-T7+ 的数据获得了 0.995999 的平均序列一致性,优于另一主流平台 Illumina NovaSeq 的 0.993489。


平均序列一致性比较

如果把 AI 模型比作一位学生,那么测序数据就是它的教材。教材本身错误越少(数据越干净),学生(AI 模型)就越不容易被误导,从而能学到更准确的知识,最终在“考试”(变异检测)中取得更可信的成绩。DNBSEQ 平台提供了更优质的“教材”,通过更优质的起点,为后续 AI 分析奠定了更高的天花板。


专属训练模型,错误率显著降低

Google Research 团队还做了一次深入实验:他们不再使用通用模型,而是使用高质量的 DNBSEQ-T7+ 数据,为 DeepVariant 训练了一个 DNBSEQ 专属模型——DeepVariant DNBSEQ-specific。

这个模型的训练集采用了 GIAB(Genome in a Bottle)标准品(HG001、HG002、HG004、HG005-HG007),并特意将 HG003 样本和第 20 号染色体(chr20)的数据“扣下”,作为从未见过的“考试题”来验证模型效果。

结果令人印象深刻:在 HG003 样本上,DNBSEQ 专属模型产生的假阳性和假阴性错误位点总数(14183个),显著少于基于 NovaSeq 数据训练的模型(15481 个)。


使用NIST v4.2.1版本变异真集评估(DNBSEQ-T7plus+DeepVariant vs. NovaSeq+DRAGEN)

为了进行更严苛的评估,团队还请出了最新的“终极考官”——HG002 样本的 T2T(端粒到端粒)完整基因组变异真集。这个真集包含超过 450 万个变异位点,远超旧版本,能更全面地检验性能。

在这个终极测试中,优势进一步拉大:DNBSEQ-T7+ DeepVariant 的总错误位点为 64116 个,显著优于 NovaSeq + DRAGEN v4.3 的 71854个,也优于 NovaSeq + DeepVariant 的 73213 个。


使用NIST HG002 T2T版本变异真集评估 DNBSEQ-T7plus+DeepVariant vs. NovaSeq+DRAGEN vs. NovaSeq+DeepVariant

结论很直接:同样的顶尖 AI 工具 DeepVariant,使用来自不同平台的测序数据训练,产出的“模型成品”质量有显著差异。DNBSEQ 平台数据训练出的模型质量更高,变异结果中假阳性和假阴性位点数量更少。

攻坚“困难区域”,表现依然卓越

真正的挑战在于那些让所有技术都头疼的“困难区域”。研讨会分享的数据显示,在这些区域,基于 DNBSEQ 的优势更加明显:

  • 同源聚合物区:在所有同源聚合物区,DNBSEQ + DeepVariant 的 Indel 检测准确率比 NovaSeq + DRAGEN 提升了约 55%。这意味着在那些连续 A 或连续 T 的困难区域,DNBSEQ 能更准确地判断是否发生了碱基的插入或缺失。


同源聚合物区Indel变异检测错误的比较(DNBSEQ-T7plus+DeepVariant vs. NovaSeq+DRAGEN)

  • 复杂结构变异区:在片段重复(Segmental Duplication)和复杂拷贝数变异(CNV)区,DNBSEQ + DeepVariant 的错误位点数量比 NovaSeq + DRAGEN 减少了约 30%。


复杂结构变异区域检测错误的比较(DNBSEQ-T7plus+DeepVariant vs. NovaSeq+DRAGEN)

其原因在于,两者的测序化学原理(DNA 纳米球与联合探针锚定聚合 vs. 可逆末端终止)不同,使得 DNBSEQ 在这些特定区域的背景错误率天然更低,从而为 AI 模型提供了更清晰的“信号”、带来了更优的变异检测性能。

平台间一致性高,表现稳定

研讨会还评估了华大智造于 2025 年新发布的另一款平台DNBSEQ-T1+,相比主打高通量的 DNBSEQ-T7+,DNBSEQ-T1+ 主打灵活性。结果显示,无论是更高通量的 T7+,还是更灵活的 T1+,其数据训练出的模型在变异检测性能上均保持一致的高水平,且都优于对比方案。


使用NIST HG002 T2T版本变异真集评估(DNBSEQ-T1plus+DeepVariant vs. NovaSeq+DRAGEN 4.5)

这意味着,DNBSEQ 平台在不同型号和通量下,都能提供稳定、可靠的高质量数据,满足从大规模种群项目到小型快速研究的不同需求,而无需担心数据质量波动影响分析结果。

重新定义性能边界,数据质量是基石

这场研讨会传达了一个明确而重要的信号——在泛基因组参考图谱人工智能这两大前沿技术的推动下,基因组变异检测的性能边界正在被不断刷新。然而,无论上层的算法如何演进,底层测序数据的质量,始终是决定最终分析高度的基石。

Google Research 此次系统性的评估表明,DNBSEQ 测序平台所提供的高准确性、低错误率的数据,能够显著提升以 DeepVariant 为代表的 AI 变异检测工具的性能,尤其是在最富挑战性的基因组区域。这为追求最高数据质量和分析精准度的基因组学研究者,提供了一个强有力的技术组合选择。

这些评估结果提示我们,AI 在基因组学领域的竞赛,不仅发生在算法和算力层面,更发生在数据产生的源头。当 AI 模型拥有了更清澈的“眼睛”,它才能为我们看清生命密码中更细微、更真实的奥秘。

值得一提的是,Google Research团队联合华大智造中国科学院大学的研究人员,在预印本平台bioRxiv发表了题为:PanVariants: Best Practice for Pangenome-based Variant Calling Pipeline and Framework 的研究论文。


该研究建立了一个基于泛基因组的变异检测的稳健框架和最佳实践流程——PanVariants,实现了对新变异的灵敏发现以及单核苷酸变异(SNV)、插入缺失(indel)和结构变异(SV)的高精度检测,有力支持了未来基因组学从线性向泛基因组参考的转变。


DNBSEQ+PanVariants 实现了对 NovaSeq+DRAGEN 的变异检测性能的超越

论文链接

https://doi.org/10.64898/2026.04.22.720142

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么说阳痿、跑步、心梗,成了“斩杀”中年男性的“三件套”?

为什么说阳痿、跑步、心梗,成了“斩杀”中年男性的“三件套”?

医药养生保健报社
2026-04-28 17:59:19
中山市古镇镇古三村党委原书记区顺垣被查

中山市古镇镇古三村党委原书记区顺垣被查

南方都市报
2026-05-12 12:00:14
连续两场手感冰凉,徐杰出战17分钟&投篮3中0,未有得分入账

连续两场手感冰凉,徐杰出战17分钟&投篮3中0,未有得分入账

懂球帝
2026-05-12 22:00:22
首钢2:1淘汰广东晋级四强,赵睿的受伤让许利民醍醐灌顶

首钢2:1淘汰广东晋级四强,赵睿的受伤让许利民醍醐灌顶

李广专业体育评论
2026-05-12 21:54:02
美驻以大使称以色列在阿联酋部署“铁穹”

美驻以大使称以色列在阿联酋部署“铁穹”

新华社
2026-05-12 22:50:05
张艺谋新剧《主角》爆火,张嘉益刘浩存表现平平,37岁女配却出圈

张艺谋新剧《主角》爆火,张嘉益刘浩存表现平平,37岁女配却出圈

冷紫葉
2026-05-11 18:12:37
德国这座“盐山”高达250多米,含有2亿吨盐,它是当地的生态灾难

德国这座“盐山”高达250多米,含有2亿吨盐,它是当地的生态灾难

怪罗
2026-05-11 10:01:52
心理学上有个词叫:螃蟹效应。永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦、不炫耀成功、不说三道四、不假装聪明

心理学上有个词叫:螃蟹效应。永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦、不炫耀成功、不说三道四、不假装聪明

德鲁克博雅管理
2026-04-28 17:04:30
杨受成“霸占”容祖儿半生:27年不娶不放,她到底图什么?

杨受成“霸占”容祖儿半生:27年不娶不放,她到底图什么?

阿废冷眼观察所
2026-05-12 19:39:35
第3名儿童被找到,已确认溺亡

第3名儿童被找到,已确认溺亡

蓬勃新闻
2026-05-12 17:01:40
范冰冰大方公开:18亿是真,没打算复合。

范冰冰大方公开:18亿是真,没打算复合。

乔话
2026-05-11 23:31:39
退休阿姨说:和再婚老伴同居后才明白,男人老了还要找老伴的原因

退休阿姨说:和再婚老伴同居后才明白,男人老了还要找老伴的原因

热心柚子姐姐
2026-05-10 11:15:42
舒马赫妻子科琳娜,照顾丈夫12年,花费超20亿,如今终于等到奇迹

舒马赫妻子科琳娜,照顾丈夫12年,花费超20亿,如今终于等到奇迹

寒士之言本尊
2026-01-28 16:12:08
美股纳微半导体跌逾10%

美股纳微半导体跌逾10%

每日经济新闻
2026-05-12 22:18:42
去了上海我才发现:没人穿T恤、短裤,满大街都在穿这些“夏装”

去了上海我才发现:没人穿T恤、短裤,满大街都在穿这些“夏装”

时尚穿搭生活馆
2026-05-12 20:57:48
梁靖崑婆媳同框,颜值气质不输明星

梁靖崑婆媳同框,颜值气质不输明星

陈意小可爱
2026-05-11 15:15:58
向太再曝猛料:李连杰黄秋燕离婚根本不是因为利智!而是另有缘由

向太再曝猛料:李连杰黄秋燕离婚根本不是因为利智!而是另有缘由

阿废冷眼观察所
2026-05-11 00:16:02
徐杰遇到了1个大麻烦!

徐杰遇到了1个大麻烦!

体育哲人
2026-05-12 20:10:43
奔驰撞人2死6伤后续:女司机正脸曝光,职业反差太大路人曝猛料

奔驰撞人2死6伤后续:女司机正脸曝光,职业反差太大路人曝猛料

大鱼简科
2026-05-11 16:56:45
瞒不住了!闺蜜曝出黄一鸣孩子生父猛料,难怪王思聪始终不肯认娃

瞒不住了!闺蜜曝出黄一鸣孩子生父猛料,难怪王思聪始终不肯认娃

情感的我
2026-05-12 15:07:21
2026-05-12 23:31:00
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科学研究
9369文章数 145077关注度
往期回顾 全部

科技要闻

宇树发布载人变形机甲,定价390万元起

头条要闻

新电动车到手不足一月频繁自动锁死 老人被摔伤五六次

头条要闻

新电动车到手不足一月频繁自动锁死 老人被摔伤五六次

体育要闻

总是掉链子的“倒霉蛋”,闯进了欧战决赛

娱乐要闻

白鹿风波升级!掉粉20万评论区沦陷

财经要闻

黄仁勋真是被白宫彻底封杀了

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

家居
旅游
健康
公开课
军事航空

家居要闻

极简主义下的居住场域与空间

旅游要闻

藏在南京新街口的老巷子,你知道哪几条

干细胞能让人“返老还童”吗

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

知情人士披露:美国或考虑恢复对伊朗军事行动

无障碍浏览 进入关怀版