近日,香港城市大学孙燕妮团队开发了一款基于深度学习的新工具VReassort。该工具能够直接从分段病毒基因组(比如流感病毒)序列中高效、准确地识别新出现的重配(reassortment)事件。相关研究以题为“Fast and Accurate Identification of Emerging Viral Reassortment from Genome Sequences”, 发表于Nucleic Acids Research杂志。
![]()
简介
流感病毒、轮状病毒等分节段病毒的基因组由多个片段组成。这种结构使它们能够通过重配(reassortment)产生新的毒株:当不同毒株同时感染同一个宿主细胞时,来自不同亲本的基因片段可能被重新包装进同一个病毒颗粒中,从而形成具有全新基因组合的后代病毒。
这种重配机制会显著提高病毒的遗传多样性,并可能赋予病毒新的生物学特性,例如更强的传播能力、更高的毒力,甚至跨物种传播能力。历史上多次流感大流行都与重配病毒的出现有关。例如,2009 年甲型 H1N1 流感大流行,就是多来源流感病毒基因片段重配的结果。因此,及时识别新出现的重配毒株,对于传染病监测、风险预警和疫情防控具有重要意义。
随着 NCBI、GISAID 等数据库中病毒全基因组数据的大量积累,利用测序数据自动识别重配事件成为可能。然而,已有方法通常存在两个核心问题:一是计算成本高,难以扩展到大规模数据;二是在系统发育树存在噪声时,难以准确区分真正的重配信号与背景扰动。针对这些问题,孙燕妮团队提出了一个新的工具 VReassort。该方法结合系统发育树特征提取与深度学习模型,能够从基因组序列中快速、准确地识别新重配的毒株。论文结果表明,VReassort 在模拟数据和真实数据上都表现出较强的准确性与鲁棒性,并且实现了在大规模数据快速分析,例如在大约2分钟内完成将近1000株流感病毒基因组片段重配分析。
方法
VReassort 的核心思路是:通过比较同一毒株在不同基因片段系统发育树中的位置是否一致,判断其是否发生了重配。之所以能够这样判断,是因为重配病毒的不同基因片段往往来自不同亲本,因此同一毒株在不同片段树上的进化位置可能并不一致。如果这种差异足够明显,就提示该毒株可能经历了重配。
传统方法通常直接比较不同片段系统发育树之间的整体差异,但这种做法容易受到建树噪声、数据质量和序列长度等因素影响,而且在大规模数据中计算成本较高。相比之下,VReassort 更关注的是:某一个毒株在两棵树中的相对位置关系是否发生异常变化。这一思路更贴近重配识别的实际需求,但也带来新的挑战——因为类似的位置变化并不一定都由重配引起,也可能来自系统发育噪声或建树误差。因此,如何自动区分真正的重配信号与背景扰动,是这一问题的关键。
VReassort的核心流程分为三步:先分别构建两个基因片段的系统发育树;再提取每个毒株在两棵树中的遗传距离和拓扑特征;最后输入深度学习模型进行打分。得分越高,说明毒株在两棵树中的位置差异越大,也就越可能发生过重配。
为了训练模型,作者还构建了模拟数据。由于真实数据库中通常缺少明确的重配标签,难以直接用于监督学习,研究者通过在系统发育树上移动部分分支来模拟重配造成的拓扑变化,并据此生成训练样本。这样既保留了真实分析中的复杂性,也为模型提供了较可靠的训练标签。
![]()
图中展示了重配模拟数据的生成和系统发育树的特征提取。
结果
论文从模拟数据和真实数据两个层面系统验证了 VReassort 的性能,并重点考察了其在多种复杂场景下的表现,包括:不同亲本相似度条件下的识别能力、多重重配事件并存时的稳定性、数据规模扩大时的可扩展性,以及对大规模重配分支的检测能力。
总体来看,VReassort 在上述实验中均表现出较好的性能:不仅能够较准确地识别重配事件,还能在复杂数据条件下保持较好的稳定性和适应性,整体效果优于对比方法。在多种模拟与真实数据集上,其 F1-score 平均达到 0.8 以上,如下图所示。
![]()
图中给出了模拟数据中4,553 株重配毒株和260,747 株非重配毒株(约1:57)在不同评分阈值设置下VReassort的平均检测性能。
![]()
图中比较了多个工具在不同重配距离和不同重配数量条件下模拟数据上的重配识别表现。
除了方法验证,论文还将 VReassort 应用于更大规模的真实病毒监测分析,展示了其在病毒进化研究和公共卫生监测中的实际价值。
甲型流感病毒中的应用:作者下载了 2010—2023 年 NCBI 中的甲型流感病毒完整基因组数据,过滤后保留 8,829 个基因组。随后利用滑动三年时间窗口进行分析,最终对 2012—2022 年间的 7,304 株病毒进行了重配识别,发现其中 2,336 株可归类为重配株。从宿主分布来看,不同宿主来源的甲型流感病毒重配比例差异明显:猪源病毒最高,达到61.7%;人源病毒约为30.9%;禽源病毒约为14.3%。这一结果与“猪是流感病毒混合容器”的经典认识高度一致,提示猪源病毒在产生新型重配毒株方面具有更高风险。
进一步从亚型层面分析发现,不同亚型的重配倾向同样存在显著差异,其中H1N2的重配比例最高,约为63%,H5N6也较高,约为61%;相比之下,H3N8和H4N6的重配比例明显较低,仅约5%。此外,H9N2、H5N1、H5N2、H7N9等与人类健康密切相关的禽流感亚型,也表现出中等偏高的重配比例。这些结果提示我们,不同亚型、不同宿主背景下的重配风险并不均一,因此有必要围绕重点宿主和重点亚型开展持续监测。
除了对流感病毒的宿主分布和亚型特征进行分析外,作者还进一步考察了重配流感病毒的片段交换规律。结果发现,HA和NA片段更容易与其他内部片段发生异源组合,但HA 与 NA 彼此之间反而更倾向于保持同一来源;与此同时,PB2、PB1 和 PA这三个聚合酶片段之间也更倾向于共同保留同源关系。这样的结果与已有生物学研究高度一致:一方面,HA 与 NA 之间需要维持功能平衡;另一方面,聚合酶复合体内部也存在较强的协同适配需求。这也说明,VReassort不仅能够用于识别重配事件,还可以进一步支持对重配规律及其潜在机制的深入解析。
![]()
图中展示了VReassort 鉴定的 2012—2022 年重配甲型流感病毒(IAV)宿主和亚型分布情况。a 为 7,304 株 IAV毒株的宿主来源分布,中间饼图显示总体构成,周围饼图显示三类宿主中重配毒株(深色,2,336 株)与非重配毒株的比例;b 为不同宿主中重配毒株在各年份的占比变化,其中 2020 年人源毒株占比为 0,可能与当年纳入的人源序列仅有 11 条有关;c 为最常见 10 种亚型的毒株数量,不同颜色表示宿主来源;d 为不同亚型中重配毒株与非重配毒株的数量分布;e 为各亚型中重配毒株的占比及其宿主来源分布。
![]()
图中展示了 2,336 株已鉴定重配毒株的分析结果,其中 a 为最常见的 20 种片段组合模式,不同颜色表示不同来源的基因片段,右侧数字表示对应的毒株数量;b 为不同异源片段对在这 2,336 株重配毒株中的占比。红框标出了占比较低的片段对,主要出现在 PB2、PB1、PA 之间以及 HA 和 NA 之间。
轮状病毒:为了验证方法的可迁移性,作者还将VReassort应用于人 A 类轮状病毒,分析其VP4和VP7两个基因片段。在160 株轮状病毒数据中,VReassort 结合重复实验与稳定性筛选,最终高置信度识别出15 株重配株,归属于6 个独立重配事件。这些毒株在两棵系统发育树中的位置差异较为明显,进一步支持其为潜在重配事件。作者还基于轮状病毒数据进行了模拟验证。尽管模型训练完全基于甲型流感病毒数据,VReassort 依然表现出较好的迁移能力,取得了F1-score>0.8的结果。这表明,VReassort 不仅适用于甲型流感病毒,也具备向其他分节段病毒扩展应用的潜力。
主要作者
蔡德涵:香港城市大学博士后研究员。于2025年6月在香港城市大学电机工程系获得博士学位。主要研究方向为利用深度学习与统计方法开展计算生物学研究,重点开发面向微生物与病毒基因组学分析的高效算法与软件工具。
孙燕妮:香港城市大学电机工程系(Electrical Engineering)副教授,博士生导师。在美国圣路易斯的华盛顿大学(Washington University in Saint Louis)取得计算机系博士学位后在密西根州立大学计算机系担任助理教授和副教授(with tenure)。2018年加入香港城市大学。主要研究方向是生物信息学,序列分析,宏基因组学,和病毒基因组学。具体的研究课题,发表的论文,以及实验室的位置请参加作者个人主页:https://yannisun.github.io/
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.