2026
SNPBag发布会
携手共进 共创辉煌
在经典科幻电影《千钧一发》(Gattaca)中,人类世界被简化为ATCG四个字母。电影开篇,主角文森特(Vincent)出生时的几滴血便判定了他未来的心脏病概率与预期寿命。这种“基因决定论”虽然冷酷,却揭示了一个深刻的生物学真理:基因组是生命的终极底层代码。
这种决定性作用在同卵双胞胎身上得到了最极致的体现。尽管他们在成长过程中可能受到不同环境的影响,但其近乎100%一致的DNA序列,使得他们在相貌、骨骼结构、甚至细微的表情神态上表现出惊人的相似。这种“跨越时空的镜像”向世人证明:我们的表型(Phenotype)——即我们长什么样、容易患什么病、甚至我们的性格倾向——在很大程度上已被写在了那份长达30亿个碱基对的“蓝图”之中。
然而,如何从这本天书中准确读出人生的剧本?这正是人类遗传学过去三十年苦苦登攀的高峰。
![]()
2026年01月13日,由上海飞瀑智能科技有限公司创始合伙人兼首席科学家唐鲲教授、华大基因白寅琪教授、中国科学院杭州医学研究所阳剑波教授及德国马普所徐国华(Augix Xu)等领衔的联合科研团队正式发布了全球首个全基因组规模的SNP基础模型——SNPBag。该模型拥有8.4亿(0.8 Billion)参数,标志着基因组研究从“线性统计时代”正式跨入“大模型智能时代”。
01从“画皮”到“刻骨”:DNA预测人脸的启示
在讨论SNPBag的革命性意义之前,我们必须回顾一项曾在全球范围内引起大讨论的基础研究。 2019年,在日本国家电视台NHK的特别节目中,唐鲲教授团队展示了如何通过少量的DNA样本,预测出一个人的3D人脸模型
这项研究利用复杂的数学建模,分析了数百个与面部发育相关的SNP位点。视频中,基于DNA生成的“预测脸”与受试者的真实面孔展现出了令人惊叹的一致性。
这项研究证明了:复杂表型并非不可预测,只是它们隐藏在海量微小基因变异的协同作用中。 过去的技术已经能够勾勒出面部的轮廓,但由于计算模型(线性模型)和样本规模的限制,细节的预测精度依然难以达到临床或刑侦级别的“高清还原”。而今天发布的SNPBag,正是为了将这种“模糊的轮廓”转化为“精准的生命洞察”,实现从物理外貌到内在健康状态的全面破译。
02现状的鸿沟:为何传统模型无法改变我们的生活?
自2003年人类基因组计划(HGP)完成以来,科学家们主要依靠全基因组关联分析(GWAS)和多基因风险评分(PGS/PRS)来破译基因。然而,尽管我们能“解释”一部分遗传力,但“预测”精度却始终在临床门槛外徘徊。
“精准预测”非常困难” :
在遗传学中, SNP遗传率(h2SNP)衡量的是SNP位点对表型变异的理论解释上限;而预测能力(R2)衡量的是模型在真实未知人群中能“猜对”多少。 目前的残酷现状是:即便我们知道某种疾病具有极高的遗传率,现有的PGS模型在独立数据集中的预测精度(R2)往往极低,甚至不足以让医生开出一张处方。下表展示了几种主要疾病与关键性状的当前预测水平(以“可预测的变异比例R2为准):
![]()
表1:全球主流疾病/性状预测精度调查(2025年汇总)
核心痛点:
在绝大多数临床场景中,我们需要R2超过 50% 甚至更高,才能具备真正的诊疗干预价值。目前的预测模型就像是一张分辨率只有 144p 的地图,能模糊辨认山川,却无法指引具体街道。
03全球基因组计划分布:250+ 国家计划的“生命数字海洋”
为了填补这一缺口,全球各国正以前所未有的速度重绘人类遗传图谱。截至2026年初,全球已启动的大型国家级/区域级基因组计划已超过 250 个。
![]()
核心国家计划概览(飞瀑科技整理)
截至目前,全球范围内已完成深度全基因组测序(WGS)或高密度检测的总人数已突破 2,500万至3,000万。这些计划背后的目标受众和所代表的遗传背景,覆盖了全球约 65亿人口。然而,这些海量数据目前处于严重的“孤岛状态”。由于不同国家的族裔背景差异、测序平台的异质性以及严苛的数据隐私保护法,传统的统计模型极难进行跨族裔的通用学习。每一项计划都在独立重复地构建低效的小模型,造成了巨大的科研资源浪费。
![]()
04SNPBag:开启全基因组的“Transformer时刻”
SNPBag的发布,标志着基因组研究从“寻找单一位点”升级为“理解生命语言”。
1)8.4亿参数:构建生命的“语义空间”
SNPBag 的核心在于其精妙的 Transformer 架构。开发团队通过在 100万个合成人类全基因组 上进行大规模预训练,处理了高达 6万亿个 SNP tokens。不同于传统算法对单一位点的“点状搜索”,SNPBag 吸收了大语言模型(LLM)处理文字逻辑的方式,学习了基因组中复杂的“语境”:
捕捉上位性(Epistasis):传统模型难以发现基因间的相互增强或抵消作用,而 SNPBag 的 Attention 机制能自动识别跨越数百万碱基对的非线性长程依赖,找回了GWAS研究中那些“消失的遗传力”。
内在进化逻辑:模型成功内化了连锁不平衡(LD)和单倍型结构。通过在训练中使用“掩码基因型”预测技术,SNPBag 能够深刻理解人类遗传多样性在基因组全长范围中的分布和条件依赖关系。
![]()
2)极致压缩:从GB级原始数据到0.75 MB“生命护照”
SNPBag 实现了一项革命性的突破:它能将个体约 600万个 SNP 位点(通常占据数 GB 存储空间)压缩成一个仅 0.75 MB(约751 KB) 的高维 Embedding 向量。
隐私守护: 产业重塑:主权基因组与万亿市场规模
全球协同:这一轻量化表达使得跨国界、跨机构的科研协作变得极其高效。不同实验室只需交换 Embedding 向量,即可在统一的数学坐标系下进行关联分析,彻底解决了“数据主权”带来的孤岛难题。
3)颠覆性的多任务性能指标
在多项基准测试中,SNPBag 展现出了降维打击般的优势:
单倍型相位重构(Phasing):实现了72倍的速度提升,且 Switch Error Rate(转换错误率)低至 1%,完美媲美甚至超越了目前顶尖的参考板方法。
基因型填充(Imputation):在高度稀疏的芯片数据上,其预测精度达到了当前最高精度(SOTA) 96.88%,速度比传统方法提升5~8倍。为低深度测序的大规模普及扫清了障碍。
远亲识别(Kinship):传统方法在三代亲缘关系外往往失效,而 SNPBag 能够精准识别远至 12级 的血缘联系,这在刑侦、寻亲和族群演化研究中具有划时代意义。
祖源推断:即使在细分亚群体中,其祖源分类准确率也高达 97%。
![]()
4)从多任务的性能跨越,走向全谱复杂表型的精准预测
基于SNPBag模型,我们最终将实现人类复杂表型的全面精准预测。这种能力来源于SNPBag的模型框架有效地突破了传统统计学对加性效应的依赖:首先,传统 GWAS 假设位点间独立累加,忽略了复杂的上位性(基因间相互作用)。SNPBag 利用 Transformer 的自注意力机制,能像解析语言一样捕捉全球数百万位点间的非线性关联和长程连锁不平衡,找回隐藏在交互作用中的遗传信号。其次,它通过大规模预训练将全基因组变异映射为高维语义嵌入(Embedding)。这种表示方式不仅整合了未达显著性阈值的微效变异,还能通过上下文推断罕见变异的效应,契合了“全基因组模型”假设,从全局视角挖掘出传统模型无法识别的隐性遗传贡献。
随着关键表型预测准确率($R^2$)稳步跨越 50%,基因组将成为定义个体生命轨迹的核心蓝图。它不仅是精准医疗的底层支撑,更将作为每个人的《人生使用说明书》,为个人成长与全生命周期健康管理提供科学预判,开启由遗传信息驱动的智能生命时代。
05 产业重塑:主权基因组与万亿市场规模
SNPBag不仅是一个算法,它更是未来生物医学产业的“通用底座”。其重要意义在于能够统一利用全球数据资源,同时保护数据隐私,解决“Missing Heritability”问题。
5.1 主权基因组 AI 服务市场
随着各国对遗传资源主权的重视,一个名为 “主权基因组模型定制”(Sovereign Genome AI Services)的新型市场正在爆发。
定制开发:针对不同国家(如沙特、阿联酋、东南亚国家)的特定人群遗传特征,基于SNPBag基础模型进行微调(Fine-tuning)。
产业规模:预计到2030年,全球主权基因组AI服务的年市场规模将突破千亿美元。各国将不再需要将珍贵的原始基因数据出境,只需通过SNPBag API即可获得全球最高精度的预测能力。
![]()
5.2 重新引爆精准健康产业
SNPBag的极致预测能力将直接重塑下游产业,形成多维度的万亿级市场:
1.AI制药(AIDD):锁定传统统计学无法发现的隐性遗传靶点,将新药研发的前期筛选成功率提升30%以上。
2.高精度精准健康:基因检测将从“概率预测”转变为“确定的健康蓝图”。基于SNPBag,未来的个人健康报告能精准预测未来的疾病演化轨迹。
3. 市场规模展望:据行业预测,到2035年,由基础模型驱动的精准医疗市场总规模将达到约万亿美元。
结语:在Gattaca的预言之上,重建生命尊严
2026年1月13日,这一天将被载入史册。
SNPBag基础模型的发布,不仅有望攻克“丢失的遗传力”这一世纪难题,更向世界证明了:我们不仅能读出生命的字母,更能理解生命的篇章。SNPBag 的使命,是让电影《千钧一发》中那种被锁定的命运成为过去。
通过精准的预测,我们不再是被动等待疾病降临,而是主动掌握干预的时机。当全球250多个基因组计划通过SNPBag这一通用语言联系在一起时,人类将第一次真正拥有共同面对生命挑战的“超级大脑”。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.