
按需访问是现代DNA/RNA应用研究领域的核心之一。无论是DNA数据存储中的信息检索,还是生物医学中的多重靶标检测,都需要精确、快速地识别和读取特定的DNA分子标签。然而,当前依赖PCR扩增或杂交捕获的目标序列富集方法,主要基于沃森-克里克碱基配对和预设引物,这限制了在测序过程中进行实时动态决策的能力。牛津纳米孔测序技术(Oxford Nanopore Technologies)以其长reads读出和实时测序的特性,为直接、动态地按需访问DNA信息提供了可能,但其原始电流信号的复杂性、高错误率以及不同标签信号间的“串扰”问题,给高通量、高精度的标签识别带来了巨大挑战。
近日,南方科技大学李毅课题组在Nature Communications杂志在线发表了题为
Empowering low-crosstalk, dynamic-decision random access of DNA storage via 384-multiplexed nanopore signatures的研究论文。该研究了一种名为SUSTag-ORCtrL的系统,该系统结合了优化的DNA分子标签设计(SUSTag)和先进的深度学习模型(ORCtrL),能够直接从原始纳米孔电流信号中实时、无PCR地对高达384种不同的DNA标签进行分类,实现了对DNA存储信息的低串扰、动态决策随机访问。这项工作为 DNA 信息的高效、灵活读取提供了一种可扩展、低延迟的 解决方案 。
![]()
研究团队从DNA分析标签设计入手,使用从纳米孔信号到碱基序列的逆向设计思路,创新性地提出了一种名为SUSTag(SUSTech Tags)的设计方案。该方案摒弃了传统的欧氏距离,转而采用更能体现信号噪声特性的巴氏距离(Bhattacharyga distance, BD),并结合动态时间规整(DTW)算法来评估候选标签序列模拟信号之间的差异性。同时,为了高效地从海量序列中筛选出最优组合,团队采用了基于Linclust的增量聚类策略,分步设计并优化标签序列,最终成功设计出具有显著信号区分度的96重和384重SUSTag标签库。理论模拟显示,相较于现有的ONT 96和Porcupine 96标签,SUSTag设计的标签集合拥有更大的最小巴氏距离,预示着更低的串扰可能性。
![]()
图1丨SUSTag DNA分子标签设计
随后,为了精准、快速地识别这些标签的纳米孔信号特征,研究团队开发了一种名为ORCtrL(Optional-Reject CNN-LSTM inspired by Transfer-Learning)的深度学习模型。该模型以CNN-LSTM为骨干网络提取信号的时序特征,并创新性地引入了受SelectiveNet启发的可选拒绝(Optional-Reject)模块。该模块允许模型在面对低置信度信号时放弃分类,从而在保证高精度的同时,有效处理无关序列或噪声信号。实验证明,在96重标签分类任务中,SUSTag结合ORCtrL模型达到了高达99.69%的类内加权F1分数;在更具挑战性的384重标签分类中,F1分数也达到了99.05%,显著优于现有系统。更重要的是,ORCtrL模型具备领域自适应(Domain Adaptation)能力。当模型从未经训练的DNA存储数据集(目标域)迁移应用时,性能会下降。但仅需利用新测序数据进行短暂(如120分钟,约20万条reads)的微调,模型性能便能迅速从87%提升至94%以上,展现出对不同实验条件和样本背景下信号变化的强大适应性。
最后,研究团队在DNA存储场景下对SUSTag-ORCtrL系统的随机访问能力进行了模拟验证。研究将SUSTag 384标签作为地址,编码了包含文本和图像信息的DNA序列。实验中,系统需要在无需PCR扩增的情况下,仅通过实时分析纳米孔信号,选择性地“读取”并解码指定地址(-)的文本信息,同时“拒绝”所有非目标信息。经过领域自适应优化的ORCtrL模型表现出色:在仅需10分钟的测序时间内,即可完整、无误地恢复所有目标文本片段,且全程未混入任何非目标片段(访问纯度100%,目标解码率100%),并将该性能稳定维持至3小时。相比之下,基于碱基识别和比对的Readfish方法出现了目标信息丢失,而另一基于信号的Porcupine CNN模型则引入了大量非目标信息,导致访问纯度低下。此外,实时的“Read Until”实验也验证了该系统动态控制测序进程的可行性。
![]()
图2丨应用SUSTag-ORCtrL系统的实时自适应测序结果
综上所述,该研究成功开发并验证了SUSTag-ORCtrL系统,通过创新的标签设计和带有可选拒绝及领域自适应功能的深度学习模型,实现了对高达384重DNA分子标签纳米孔信号的高精度、低串扰实时分类,并将其应用于DNA存储信息的快速、无PCR随机访问。该系统不仅为解决DNA数据存储中的按需读取难题提供了强大的技术支撑,也为未来在基因组学、转录组学疾病筛查、分子诊断以及“DNA-of-things” 等领域的应用开辟了新的可能性。
南方科技大学深港微电子学院博士生李骏垚为论文第一作者,李毅 研究员为论文通讯作者。
https://www.nature.com/articles/s41467-025-64293-2
制版人: 十一
学术合作组织
(*排名不分先后)
![]()
战略合作伙伴
(*排名不分先后)
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
BioArt
Med
Plants
人才招聘
近期直播推荐

点击主页推荐活动
关注更多最新活动!
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.