网易首页 > 网易号 > 正文 申请入驻

训练速度比Transformer快160倍,一种在人类参考基因组上进行预训练的基因组基础模型

0
分享至

ScienceAI设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 萝卜皮

基因组 (DNA) 序列编码大量用于基因调控和蛋白质合成的信息。与自然语言模型类似,科学家提出了基因组学的基础模型,从未标记的基因组数据中学习可概括的特征,然后可以针对下游任务(例如识别调控元件)进行微调。

由于注意力的二次缩放,之前基于 Transformer 的基因组模型使用 512 到 4k 个标记作为上下文(< 人类基因组的 0.001%),极大地限制了 DNA 中远程相互作用的建模。

此外,这些方法依赖标记器来聚合有意义的 DNA 单元,从而失去单核苷酸分辨率,其中细微的遗传变异可以通过单核苷酸多态性 (SNP) 完全改变蛋白质功能。

最近,基于隐式卷积的大型语言模型 Hyena 被证明可以在质量上匹配注意力,同时允许更长的上下文长度和更低的时间复杂度。

利用 Hyenas 新的远程功能,斯坦福大学(Stanford University)的研究人员推出了 HyenaDNA,这是一种在人类参考基因组上进行预训练的基因组基础模型,在单核苷酸水平上上下文长度高达 100 万个标记,比之前基于密集注意力的模型增加了 500 倍。

该研究以「HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution」为题,于 2023 年 6 月 27 日发布在 arXiv 预印平台。

背景

尽管增加上下文长度基准很有趣,但提高基因组学中的上下文长度和表达能力的潜在影响可能更具价值。尽管人类基因组已经被绘制出来,它提供了序列中核苷酸的顺序;但序列空间如何映射到功能、性状、疾病和许多其他问题,仍然是一项正在进行的研究工作。破解遗传密码将有助于我们更好地了解疾病(遗传性疾病),并通过基因表达建模(和识别药物靶点)实现药物发现的突破。

以前的基因组学模型

将基础模型应用于基因组学(例如,DNABERT、Nucleotide Transformer、GenSLM、GENA-LM),将 DNA 建模为生命的「语言」,已经取得了令人惊叹的工作。不幸的是,这些工作受到 Transformer 中注意力二次缩放的限制,并且到目前为止通常使用 512 - 4k 标记之间的上下文长度,具体取决于密集或稀疏注意力。这还不到人类基因组长度的 0.001%。(与具有相当“短程”序列的蛋白质模型相比,基因组学的建立要少得多。)

同样重要且具有挑战性的是对高分辨率的需求。事实上,所有基因组 FM 都依赖标记器来聚合有意义的 DNA 单元或「单词」,或使用固定的 k 聚体,这些固定的 k 聚体具有大小为 k 且彼此重叠的固定「单词」。这些「技巧」也有助于延长上下文。然而,单核苷酸多态性(SNP)的存在表明,单个 DNA 特征的变化可以完全改变基因、蛋白质功能,或导致细胞进入疾病状态。

这意味着长上下文和单核苷酸分辨率在基因组学中都至关重要!相比之下,对于自然语言来说,章节中单个字符或单词的变化并不会真正改变语义。已经有单字符分词器的研究,但他们一直在处理较长的序列和表现不佳的 BPE 或子词分词器。

HyenaDNA:Hyena 与基因组学的结合

HyenaDNA 是一种基因组基础模型,在单核苷酸分辨率下对长达 100 万个标记的序列进行了预训练。随着上下文长度的增加,研究人员可以通过改善困惑度来达到更好的性能。

HyenaDNA 的训练速度比使用 FlashAttention 的 Transformer 快 160 倍,使用单字符分词器,并且每层都有全局上下文。研究人员将 HyenaDNA 应用于 28 个基因组任务(SOTA 应用于 23 个),使用的参数比以前的基因组模型少得多,并且示例适合 Colab。

图示:研究人员在模型大小和序列长度方面预训练了一系列 HyenaDNA 模型。

含有 HyenaDNA 的 1M 核苷酸标记

为了对 DNA 和这些相互作用进行建模,HyenaDNA 使用简单的 Hyena 运算符堆栈作为其骨干(甚至更多架构细节),并使用单个字符标记器处理 DNA 序列。通过学习 DNA 序列的分布,HyenaDNA 使用无监督学习来隐式学习基因编码方式以及非编码区如何参与调节基因表达的表示。

图示:(左)HyenaDNA 块类似于 Transformer-decoder 块,但注意力被交换为 Hyena Operator。(中)Hyena 算子是长卷积和逐元素门的交错。这些门使用输入的投影,由密集且短的卷积层组成。(右)长卷积通过 MLP 隐式参数化,该 MLP 创建长 Hyena 滤波器的权重。

技术亮点:

研究人员训练了一系列具有不同大小和上下文长度的 HyenaDNA 模型。

1、预训练:上下文长度高达 1M 个 token,比以前的基因组 FM 长 500 倍;

2、单核苷酸解析和标记化(词汇量为 4!),每一层都有全局上下文;

3、序列长度 (N Log N) 呈二次方缩放,例如,序列长度为 100 万时,训练速度比 Transformer 快 160 倍;

4、引入序列长度预热调度程序来解决不稳定性并进一步加速训练,例如,450k 核苷酸的物种分类训练时间减少 40%

图示:研究人员对 HyenaDNA 与 Transformer 的前向和后向传递运行时间进行了基准测试。

该团队探索了更长的上下文可以带来什么——包括在基因组学中首次使用上下文学习来简单地适应新任务,而无需更新预训练的模型权重。

在 Nucleotide Transformer 的微调基准上,HyenaDNA 使用参数和预训练数据少几个数量级的模型,在 17 个数据集中的 12 个上达到了 STOA。

在 GenomicBenchmarks 上,HyenaDNA 在所有 8 个数据集上平均超过 SotA +9 个准确度点。

论文链接:https://arxiv.org/abs/2306.15794

相关报道:https://hazyresearch.stanford.edu/blog/2023-06-29-hyena-dna

人工智能×[ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

干史人
2026-01-08 22:47:00
故事:42岁女子做试管生下儿子,8年后却找医生痛哭:我还不如不生

故事:42岁女子做试管生下儿子,8年后却找医生痛哭:我还不如不生

涛哥讲堂
2024-08-20 15:47:46
CBA积分榜最新排名出炉!广厦广东稳居前2:辽宁队已下滑至第11?

CBA积分榜最新排名出炉!广厦广东稳居前2:辽宁队已下滑至第11?

篮球快餐车
2026-01-15 04:03:24
“田朴珺们”的上位:这些真相,没人敢明说

“田朴珺们”的上位:这些真相,没人敢明说

红大娘娱乐
2026-01-12 22:10:28
小小改变也能延寿!《柳叶刀》重磅:每天仅增加5分钟运动,就能显著延长寿命

小小改变也能延寿!《柳叶刀》重磅:每天仅增加5分钟运动,就能显著延长寿命

医诺维
2026-01-14 17:06:29
绝了,才刚下课!阿隆索就和皇马翻脸,抱怨高层,下课太委屈

绝了,才刚下课!阿隆索就和皇马翻脸,抱怨高层,下课太委屈

阿泰希特
2026-01-14 11:16:22
贾·莫兰特与灰熊队友在柏林训练中发生激烈争吵,被拍到视频

贾·莫兰特与灰熊队友在柏林训练中发生激烈争吵,被拍到视频

好火子
2026-01-15 01:35:03
石破茂回应中日现状,不是打得过打不过的问题,而是能不能活下去

石破茂回应中日现状,不是打得过打不过的问题,而是能不能活下去

笑谈历史阿晡
2026-01-14 11:26:05
What?!美国3美元的Trader Joe’s帆布袋,在海外被炒到5万美元!?

What?!美国3美元的Trader Joe’s帆布袋,在海外被炒到5万美元!?

北美省钱快报
2026-01-13 07:36:20
国乒大冷门!新科世界冠军输排名155对手,新年首战止步资格赛

国乒大冷门!新科世界冠军输排名155对手,新年首战止步资格赛

全言作品
2026-01-15 00:41:26
告别校外供餐 2027年底所有北京中小学将实现校内食堂供餐

告别校外供餐 2027年底所有北京中小学将实现校内食堂供餐

新京报
2026-01-14 20:24:05
生理性喜欢显而易见,43岁阿Sa高调认爱,给内娱女明星们上了一课

生理性喜欢显而易见,43岁阿Sa高调认爱,给内娱女明星们上了一课

查尔菲的笔记
2026-01-14 22:00:56
广东宏远拒绝输球!全力击败上海男篮,奎因对位张镇麟,央视直播

广东宏远拒绝输球!全力击败上海男篮,奎因对位张镇麟,央视直播

体坛瞎白话
2026-01-14 15:04:40
激烈冲突!T2对阵,山西13分惨败,迪亚洛好日子结束

激烈冲突!T2对阵,山西13分惨败,迪亚洛好日子结束

孤酒老巷QA
2026-01-14 20:35:11
央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

西门老爹
2025-12-16 15:35:31
新冠病毒3大结局已经不可避免,60岁以上的老年人尤其要注意

新冠病毒3大结局已经不可避免,60岁以上的老年人尤其要注意

医护健康科普
2025-08-31 17:07:58
中戏辟谣后,闫学晶儿子又被举报了,如今央媒下场,这下麻烦大了

中戏辟谣后,闫学晶儿子又被举报了,如今央媒下场,这下麻烦大了

叨唠
2026-01-14 04:47:42
动态丨上海警方开展“砺剑2026”集中整治行动;从重处罚!“90后医生被控强奸2名幼女”案再审宣判

动态丨上海警方开展“砺剑2026”集中整治行动;从重处罚!“90后医生被控强奸2名幼女”案再审宣判

上海法治声音
2026-01-14 19:21:10
美股科技股集体下跌

美股科技股集体下跌

第一财经资讯
2026-01-14 23:05:46
楼市大局已定!45%有多套房的家庭,将要面临这4个难题

楼市大局已定!45%有多套房的家庭,将要面临这4个难题

猫叔东山再起
2025-11-23 10:35:03
2026-01-15 06:28:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4473文章数 37388关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

手机
本地
家居
公开课
军事航空

手机要闻

REDMI Turbo 5 MAX现身跑分,天玑9500s芯片加持

本地新闻

邵阳公益诉讼检察主题曲:《守望星》

家居要闻

心之所向 现代建构之美

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

中东气氛愈发紧张 伊朗处于最高战备状态

无障碍浏览 进入关怀版