网易首页 > 网易号 > 正文 申请入驻

分类准确率达99%,山大团队提出基于对比学习的基因数据分类方法

0
分享至

编辑 | 萝卜皮

深度神经网络模型的快速进步显著增强了从微生物序列数据中提取特征的能力,这对于解决生物学挑战至关重要。然而,标记微生物数据的稀缺性和复杂性给监督学习方法带来了巨大的困难。

为了解决这些问题,山东大学的研究人员提出了 DNASimCLR,这是一个专为高效基因序列数据特征提取而设计的无监督框架。

DNASimCLR 利用卷积神经网络和基于对比学习的 SimCLR 框架,从不同的微生物基因序列中提取复杂特征。预训练在两个经典的大型未标记数据集上进行,包括宏基因组和病毒基因序列。后续分类任务通过使用之前获得的模型对预训练模型进行微调来执行。

DNASimCLR 的多功能性使其在涉及新基因序列或以前未见过的基因序列的场景中表现良好,使其成为基因组学中各种应用的宝贵工具。

该研究以「DNASimCLR: a contrastive learning-based deep learning approach for gene sequence data classification」为题,于 2024 年 10 月 14 日发布在《BMC Bioinformatics》。

即使是目前最全面的微生物基因数据库也存在数据和标签缺失的问题,这严重限制了许多监督式深度学习方法的有效性。解决这一不完整性是一项迫切需要关注的挑战。

本文针对微生物基因序列数据的表征学习问题,提出了一种基于对比学习的神经网络特征提取方法。

图示:DNASimCLR 框架概述。(来源:论文)

DNASimCLR 的工作流程主要包括两个阶段:对比学习的预训练阶段和分类网络的微调阶段。在预训练阶段,研究人员使用 One-Hot 编码方法将未标记的原始 DNA 基因序列数据转换为适合机器学习的格式。

在预训练阶段,对 One-Hot 编码数据进行随机掩码处理,生成训练数据集。在此阶段,研究人员采用 SimCLR 框架模型来获取未标记序列的向量表示。该过程通过对比学习将基因序列嵌入到固定维度的高维空间中。

在微调阶段,利用预训练阶段得到的特征提取模型,对标注数据采用不进行掩蔽操作的One-Hot编码方法进行编码。研究人员继续进行分类预测的训练,最终得到一个能够确定 DNA 序列类别的分类网络

图示:具有不同读取长度的 sr-WGS 和 lr-WGS 数据的模型准确度结果。(来源:论文)

在性能评估方面,该团队对不同来源的基因组数据库进行了测试。

研究人员用 DNASimCLR 对不同长度(250 bp、500 bp、1000 bp、1300 bp 和 10,000 bp)的读段序列进行了分类和短序列病毒宿主预测,实现了 99% 的显著分类准确率,实现了显著的准确性提升。

并且,这项研究的意义是多方面的。

首先,首次将对比学习应用到微生物基因序列数据的表征学习中,发展了一种新的针对基因数据的数据处理方法,突破了传统SimCLR方法仅适用于图像数据的局限性,拓展了对比学习的应用领域。

其次,该研究提出的微生物基因序列数据分类器在性能上表现出了大幅的提升,为卷积神经网络方法在处理生物数据方面的发展开辟了新的机遇。

第三,由于预训练阶段和分类阶段的分离,该方法可以轻松应用于其他基因组学问题,例如蛋白质功能预测和新病毒检测。

总之,DNASimCLR 代表了利用自监督学习模型进行微生物基因序列特征提取的先进探索。这种方法有可能在生物信息学领域引入创新概念,提供通过卷积神经网络获取生物序列特征的途径。

论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-024-05955-8

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北京:退休人员可以报销产前检查费用,自2026年1月1日起实行

北京:退休人员可以报销产前检查费用,自2026年1月1日起实行

和讯网
2026-01-13 15:03:10
王石田朴珺运动照流出!网友:这老头,太不容易了……

王石田朴珺运动照流出!网友:这老头,太不容易了……

麦杰逊
2026-01-13 12:09:35
屠杀已经开始,付出巨大牺牲可能仍然失败

屠杀已经开始,付出巨大牺牲可能仍然失败

金召点评
2026-01-13 14:10:18
央视车被堵外面,人民日报下场,白衬衫守护,呆呆成为历史第一人

央视车被堵外面,人民日报下场,白衬衫守护,呆呆成为历史第一人

李健政观察
2026-01-13 09:41:59
俄方爆料!“美军一开始就没打算让任何人活下来”

俄方爆料!“美军一开始就没打算让任何人活下来”

浙江之声
2026-01-11 18:23:51
形势危急:据称,伊朗抗议活动的死亡人数急剧上升到500多人

形势危急:据称,伊朗抗议活动的死亡人数急剧上升到500多人

一种观点
2026-01-12 08:13:06
呆呆全家关门走人了!警察成排围着看守,很多地方拉起了警戒线!

呆呆全家关门走人了!警察成排围着看守,很多地方拉起了警戒线!

好贤观史记
2026-01-13 18:08:50
网传“骨科神医”家藏3.2亿现金,全被冻结!

网传“骨科神医”家藏3.2亿现金,全被冻结!

达文西看世界
2026-01-10 14:18:58
京沪最快高铁G25来了,中途只停靠南京南站

京沪最快高铁G25来了,中途只停靠南京南站

现代快报
2026-01-13 13:37:03
伊朗今日公开处决抗议者,美国和以色列究竟在干什么?

伊朗今日公开处决抗议者,美国和以色列究竟在干什么?

史政先锋
2026-01-13 14:47:23
没想到!西周姬姓贵族基因被检测为N系,而汉族人主要是O系

没想到!西周姬姓贵族基因被检测为N系,而汉族人主要是O系

何氽简史
2026-01-13 20:17:27
沉默5天后,高市早苗开腔了,对中国说了一句,不敢对美国说的话

沉默5天后,高市早苗开腔了,对中国说了一句,不敢对美国说的话

策略述
2026-01-13 18:37:41
国产车企警惕!特斯拉FSD即将入华,技术代差恐进一步拉大

国产车企警惕!特斯拉FSD即将入华,技术代差恐进一步拉大

燕梳楼频道
2026-01-12 21:14:25
打不打?美媒爆料:白宫存在严重分歧!

打不打?美媒爆料:白宫存在严重分歧!

环球时报国际
2026-01-13 19:46:18
“为用优惠券,90元物品分两次结算遭嘲讽”?女子称在“零食有鸣”购物被锁店内;多方回应

“为用优惠券,90元物品分两次结算遭嘲讽”?女子称在“零食有鸣”购物被锁店内;多方回应

大风新闻
2026-01-13 18:13:32
军事专家李莉并没有清空作品

军事专家李莉并没有清空作品

难得君
2026-01-13 11:46:20
一触即发:美国对伊朗军事准备进入最后阶段!特朗普称其越过红线

一触即发:美国对伊朗军事准备进入最后阶段!特朗普称其越过红线

项鹏飞
2026-01-13 18:42:53
三只羊网络官方号正式复播,开播4小时观看人次42万,销售额高达25万元;旗下主播近期均已复播

三只羊网络官方号正式复播,开播4小时观看人次42万,销售额高达25万元;旗下主播近期均已复播

台州交通广播
2026-01-13 13:03:35
蒋超良四弟、五弟全涉案,被免湖北省委书记后,“边上一下安静了,没有人了”

蒋超良四弟、五弟全涉案,被免湖北省委书记后,“边上一下安静了,没有人了”

新京报政事儿
2026-01-13 20:42:52
伊朗宣布1月14日开始执行涉及街头示威的死刑判决

伊朗宣布1月14日开始执行涉及街头示威的死刑判决

桂系007
2026-01-13 01:43:56
2026-01-14 01:24:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1206文章数 223关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

李在明访日与高市早苗会谈 提到中国

头条要闻

李在明访日与高市早苗会谈 提到中国

体育要闻

他带出国乒世界冠军,退休后为爱徒返场

娱乐要闻

蔡卓妍承认新恋情,与男友林俊贤感情稳定

财经要闻

"天量存款"将到期 资金会否搬入股市?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

本地
时尚
教育
游戏
公开课

本地新闻

云游内蒙|到巴彦淖尔去,赴一场塞上江南的邀约

今年春天,外套长一点会更美!

教育要闻

重庆历史类考生必看!广外法学投档线揭晓

《生化危机 安魂曲》新发布会官宣 / Steam 推理游戏节开幕

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版