网易首页 > 网易号 > 正文 申请入驻

训练速度比Transformer快160倍,一种在人类参考基因组上进行预训练的基因组基础模型

0
分享至

ScienceAI设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 萝卜皮

基因组 (DNA) 序列编码大量用于基因调控和蛋白质合成的信息。与自然语言模型类似,科学家提出了基因组学的基础模型,从未标记的基因组数据中学习可概括的特征,然后可以针对下游任务(例如识别调控元件)进行微调。

由于注意力的二次缩放,之前基于 Transformer 的基因组模型使用 512 到 4k 个标记作为上下文(< 人类基因组的 0.001%),极大地限制了 DNA 中远程相互作用的建模。

此外,这些方法依赖标记器来聚合有意义的 DNA 单元,从而失去单核苷酸分辨率,其中细微的遗传变异可以通过单核苷酸多态性 (SNP) 完全改变蛋白质功能。

最近,基于隐式卷积的大型语言模型 Hyena 被证明可以在质量上匹配注意力,同时允许更长的上下文长度和更低的时间复杂度。

利用 Hyenas 新的远程功能,斯坦福大学(Stanford University)的研究人员推出了 HyenaDNA,这是一种在人类参考基因组上进行预训练的基因组基础模型,在单核苷酸水平上上下文长度高达 100 万个标记,比之前基于密集注意力的模型增加了 500 倍。

该研究以「HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution」为题,于 2023 年 6 月 27 日发布在 arXiv 预印平台。

背景

尽管增加上下文长度基准很有趣,但提高基因组学中的上下文长度和表达能力的潜在影响可能更具价值。尽管人类基因组已经被绘制出来,它提供了序列中核苷酸的顺序;但序列空间如何映射到功能、性状、疾病和许多其他问题,仍然是一项正在进行的研究工作。破解遗传密码将有助于我们更好地了解疾病(遗传性疾病),并通过基因表达建模(和识别药物靶点)实现药物发现的突破。

以前的基因组学模型

将基础模型应用于基因组学(例如,DNABERT、Nucleotide Transformer、GenSLM、GENA-LM),将 DNA 建模为生命的「语言」,已经取得了令人惊叹的工作。不幸的是,这些工作受到 Transformer 中注意力二次缩放的限制,并且到目前为止通常使用 512 - 4k 标记之间的上下文长度,具体取决于密集或稀疏注意力。这还不到人类基因组长度的 0.001%。(与具有相当“短程”序列的蛋白质模型相比,基因组学的建立要少得多。)

同样重要且具有挑战性的是对高分辨率的需求。事实上,所有基因组 FM 都依赖标记器来聚合有意义的 DNA 单元或「单词」,或使用固定的 k 聚体,这些固定的 k 聚体具有大小为 k 且彼此重叠的固定「单词」。这些「技巧」也有助于延长上下文。然而,单核苷酸多态性(SNP)的存在表明,单个 DNA 特征的变化可以完全改变基因、蛋白质功能,或导致细胞进入疾病状态。

这意味着长上下文和单核苷酸分辨率在基因组学中都至关重要!相比之下,对于自然语言来说,章节中单个字符或单词的变化并不会真正改变语义。已经有单字符分词器的研究,但他们一直在处理较长的序列和表现不佳的 BPE 或子词分词器。

HyenaDNA:Hyena 与基因组学的结合

HyenaDNA 是一种基因组基础模型,在单核苷酸分辨率下对长达 100 万个标记的序列进行了预训练。随着上下文长度的增加,研究人员可以通过改善困惑度来达到更好的性能。

HyenaDNA 的训练速度比使用 FlashAttention 的 Transformer 快 160 倍,使用单字符分词器,并且每层都有全局上下文。研究人员将 HyenaDNA 应用于 28 个基因组任务(SOTA 应用于 23 个),使用的参数比以前的基因组模型少得多,并且示例适合 Colab。

图示:研究人员在模型大小和序列长度方面预训练了一系列 HyenaDNA 模型。

含有 HyenaDNA 的 1M 核苷酸标记

为了对 DNA 和这些相互作用进行建模,HyenaDNA 使用简单的 Hyena 运算符堆栈作为其骨干(甚至更多架构细节),并使用单个字符标记器处理 DNA 序列。通过学习 DNA 序列的分布,HyenaDNA 使用无监督学习来隐式学习基因编码方式以及非编码区如何参与调节基因表达的表示。

图示:(左)HyenaDNA 块类似于 Transformer-decoder 块,但注意力被交换为 Hyena Operator。(中)Hyena 算子是长卷积和逐元素门的交错。这些门使用输入的投影,由密集且短的卷积层组成。(右)长卷积通过 MLP 隐式参数化,该 MLP 创建长 Hyena 滤波器的权重。

技术亮点:

研究人员训练了一系列具有不同大小和上下文长度的 HyenaDNA 模型。

1、预训练:上下文长度高达 1M 个 token,比以前的基因组 FM 长 500 倍;

2、单核苷酸解析和标记化(词汇量为 4!),每一层都有全局上下文;

3、序列长度 (N Log N) 呈二次方缩放,例如,序列长度为 100 万时,训练速度比 Transformer 快 160 倍;

4、引入序列长度预热调度程序来解决不稳定性并进一步加速训练,例如,450k 核苷酸的物种分类训练时间减少 40%

图示:研究人员对 HyenaDNA 与 Transformer 的前向和后向传递运行时间进行了基准测试。

该团队探索了更长的上下文可以带来什么——包括在基因组学中首次使用上下文学习来简单地适应新任务,而无需更新预训练的模型权重。

在 Nucleotide Transformer 的微调基准上,HyenaDNA 使用参数和预训练数据少几个数量级的模型,在 17 个数据集中的 12 个上达到了 STOA。

在 GenomicBenchmarks 上,HyenaDNA 在所有 8 个数据集上平均超过 SotA +9 个准确度点。

论文链接:https://arxiv.org/abs/2306.15794

相关报道:https://hazyresearch.stanford.edu/blog/2023-06-29-hyena-dna

人工智能×[ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Apellis美股盘前涨超140%

Apellis美股盘前涨超140%

每日经济新闻
2026-03-31 19:18:10
大战一触即发,特朗普准备豪赌

大战一触即发,特朗普准备豪赌

南风窗
2026-03-30 15:29:40
广东复仇江苏夺回第三!杜锋将迎最大考验:下一轮战广厦很关键!

广东复仇江苏夺回第三!杜锋将迎最大考验:下一轮战广厦很关键!

篮球快餐车
2026-04-01 05:09:33
施瓦辛格私生子首战健美赛场斩获三金一银,78岁父亲亲自指导

施瓦辛格私生子首战健美赛场斩获三金一银,78岁父亲亲自指导

观察鉴娱
2026-03-31 09:04:17
为啥网上的东北人和现实中的差别很大?网友:好爽义气嘴皮子贼溜

为啥网上的东北人和现实中的差别很大?网友:好爽义气嘴皮子贼溜

带你感受人间冷暖
2026-03-27 00:22:36
全市首单落地!静安首创老房收购置换模式,一居民签下首单:40㎡老房换来220万“房票”,直接买新房→

全市首单落地!静安首创老房收购置换模式,一居民签下首单:40㎡老房换来220万“房票”,直接买新房→

上海静安
2026-03-31 19:05:35
朱孝天撕「卖情怀F4」标签上陆综 曾志伟吓一跳:为什么要来?

朱孝天撕「卖情怀F4」标签上陆综 曾志伟吓一跳:为什么要来?

ETtoday星光云
2026-03-30 09:50:17
公安部172号令:70岁以上驾照年审取消,这点要牢记

公安部172号令:70岁以上驾照年审取消,这点要牢记

三农老历
2026-04-01 00:24:54
澳门世界杯!日本新星1:3出局,勒布伦剃光头,王楚钦新赛程诞生

澳门世界杯!日本新星1:3出局,勒布伦剃光头,王楚钦新赛程诞生

罗纳尔说个球
2026-04-01 01:26:59
国歌中一句话引发争议,建国以来被反复修改,其中一版本只用四年

国歌中一句话引发争议,建国以来被反复修改,其中一版本只用四年

顾秋韵
2026-03-30 14:39:53
张雪机车两连冠!必须提醒:你们动巨头500亿的蛋糕,一定要小心

张雪机车两连冠!必须提醒:你们动巨头500亿的蛋糕,一定要小心

达文西看世界
2026-03-31 18:53:29
口水仗升级!贝弗利怒怼韦德,句句戳心窝啊

口水仗升级!贝弗利怒怼韦德,句句戳心窝啊

球童无忌
2026-04-01 00:01:36
刚刚!黄金飙涨、股市拉升、油价跳水!特朗普释放重磅信号

刚刚!黄金飙涨、股市拉升、油价跳水!特朗普释放重磅信号

新浪财经
2026-03-31 10:31:59
美债39万亿曝光,中东产油国狂卖美债,人民币杀入中东石油结算第二

美债39万亿曝光,中东产油国狂卖美债,人民币杀入中东石油结算第二

别人都叫我阿腈
2026-03-31 17:51:33
周二纽约尾盘,道指期货涨2.43%

周二纽约尾盘,道指期货涨2.43%

每日经济新闻
2026-04-01 06:04:05
“王炸”组合降临?——字母哥争夺战引爆NBA史上最大拍卖会

“王炸”组合降临?——字母哥争夺战引爆NBA史上最大拍卖会

茅塞盾开本尊
2026-03-31 12:42:40
郑丽文赴京前,民进党官员流泪,全岛同时收到消息,逃兵潮已爆发

郑丽文赴京前,民进党官员流泪,全岛同时收到消息,逃兵潮已爆发

雅儿电影解说
2026-04-01 04:39:14
七国集团开会让全世界看笑话,美欧裂痕彻底摆上台面!

七国集团开会让全世界看笑话,美欧裂痕彻底摆上台面!

小影的娱乐
2026-04-01 04:53:25
足坛疯狂一夜:十人意大利加时战平,日本爆冷胜英格兰

足坛疯狂一夜:十人意大利加时战平,日本爆冷胜英格兰

老皢尾声体育解说
2026-04-01 05:08:05
被伊朗打怕了?以色列竟想买希腊40座岛,给国民留后路

被伊朗打怕了?以色列竟想买希腊40座岛,给国民留后路

新浪财经
2026-04-01 01:08:22
2026-04-01 06:48:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4622文章数 37442关注度
往期回顾 全部

科技要闻

华为2025年销售收入8809亿,净利润680亿元

头条要闻

特朗普:将在“两到三周”内结束伊朗战事

头条要闻

特朗普:将在“两到三周”内结束伊朗战事

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

游戏
时尚
教育
旅游
房产

《荒野大镖客3》消息大汇总!发售时间曝光

「性治疗室」里的00后,男多女少

教育要闻

宛城区这所学校11名教师被通报表扬

旅游要闻

体验经济,释放消费潜能新引擎(商海观潮)

房产要闻

重磅!海南城市更新拟出新政!

无障碍浏览 进入关怀版