网易首页 > 网易号 > 正文 申请入驻

训练速度比Transformer快160倍,一种在人类参考基因组上进行预训练的基因组基础模型

0
分享至

ScienceAI设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 萝卜皮

基因组 (DNA) 序列编码大量用于基因调控和蛋白质合成的信息。与自然语言模型类似,科学家提出了基因组学的基础模型,从未标记的基因组数据中学习可概括的特征,然后可以针对下游任务(例如识别调控元件)进行微调。

由于注意力的二次缩放,之前基于 Transformer 的基因组模型使用 512 到 4k 个标记作为上下文(< 人类基因组的 0.001%),极大地限制了 DNA 中远程相互作用的建模。

此外,这些方法依赖标记器来聚合有意义的 DNA 单元,从而失去单核苷酸分辨率,其中细微的遗传变异可以通过单核苷酸多态性 (SNP) 完全改变蛋白质功能。

最近,基于隐式卷积的大型语言模型 Hyena 被证明可以在质量上匹配注意力,同时允许更长的上下文长度和更低的时间复杂度。

利用 Hyenas 新的远程功能,斯坦福大学(Stanford University)的研究人员推出了 HyenaDNA,这是一种在人类参考基因组上进行预训练的基因组基础模型,在单核苷酸水平上上下文长度高达 100 万个标记,比之前基于密集注意力的模型增加了 500 倍。

该研究以「HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution」为题,于 2023 年 6 月 27 日发布在 arXiv 预印平台。

背景

尽管增加上下文长度基准很有趣,但提高基因组学中的上下文长度和表达能力的潜在影响可能更具价值。尽管人类基因组已经被绘制出来,它提供了序列中核苷酸的顺序;但序列空间如何映射到功能、性状、疾病和许多其他问题,仍然是一项正在进行的研究工作。破解遗传密码将有助于我们更好地了解疾病(遗传性疾病),并通过基因表达建模(和识别药物靶点)实现药物发现的突破。

以前的基因组学模型

将基础模型应用于基因组学(例如,DNABERT、Nucleotide Transformer、GenSLM、GENA-LM),将 DNA 建模为生命的「语言」,已经取得了令人惊叹的工作。不幸的是,这些工作受到 Transformer 中注意力二次缩放的限制,并且到目前为止通常使用 512 - 4k 标记之间的上下文长度,具体取决于密集或稀疏注意力。这还不到人类基因组长度的 0.001%。(与具有相当“短程”序列的蛋白质模型相比,基因组学的建立要少得多。)

同样重要且具有挑战性的是对高分辨率的需求。事实上,所有基因组 FM 都依赖标记器来聚合有意义的 DNA 单元或「单词」,或使用固定的 k 聚体,这些固定的 k 聚体具有大小为 k 且彼此重叠的固定「单词」。这些「技巧」也有助于延长上下文。然而,单核苷酸多态性(SNP)的存在表明,单个 DNA 特征的变化可以完全改变基因、蛋白质功能,或导致细胞进入疾病状态。

这意味着长上下文和单核苷酸分辨率在基因组学中都至关重要!相比之下,对于自然语言来说,章节中单个字符或单词的变化并不会真正改变语义。已经有单字符分词器的研究,但他们一直在处理较长的序列和表现不佳的 BPE 或子词分词器。

HyenaDNA:Hyena 与基因组学的结合

HyenaDNA 是一种基因组基础模型,在单核苷酸分辨率下对长达 100 万个标记的序列进行了预训练。随着上下文长度的增加,研究人员可以通过改善困惑度来达到更好的性能。

HyenaDNA 的训练速度比使用 FlashAttention 的 Transformer 快 160 倍,使用单字符分词器,并且每层都有全局上下文。研究人员将 HyenaDNA 应用于 28 个基因组任务(SOTA 应用于 23 个),使用的参数比以前的基因组模型少得多,并且示例适合 Colab。

图示:研究人员在模型大小和序列长度方面预训练了一系列 HyenaDNA 模型。

含有 HyenaDNA 的 1M 核苷酸标记

为了对 DNA 和这些相互作用进行建模,HyenaDNA 使用简单的 Hyena 运算符堆栈作为其骨干(甚至更多架构细节),并使用单个字符标记器处理 DNA 序列。通过学习 DNA 序列的分布,HyenaDNA 使用无监督学习来隐式学习基因编码方式以及非编码区如何参与调节基因表达的表示。

图示:(左)HyenaDNA 块类似于 Transformer-decoder 块,但注意力被交换为 Hyena Operator。(中)Hyena 算子是长卷积和逐元素门的交错。这些门使用输入的投影,由密集且短的卷积层组成。(右)长卷积通过 MLP 隐式参数化,该 MLP 创建长 Hyena 滤波器的权重。

技术亮点:

研究人员训练了一系列具有不同大小和上下文长度的 HyenaDNA 模型。

1、预训练:上下文长度高达 1M 个 token,比以前的基因组 FM 长 500 倍;

2、单核苷酸解析和标记化(词汇量为 4!),每一层都有全局上下文;

3、序列长度 (N Log N) 呈二次方缩放,例如,序列长度为 100 万时,训练速度比 Transformer 快 160 倍;

4、引入序列长度预热调度程序来解决不稳定性并进一步加速训练,例如,450k 核苷酸的物种分类训练时间减少 40%

图示:研究人员对 HyenaDNA 与 Transformer 的前向和后向传递运行时间进行了基准测试。

该团队探索了更长的上下文可以带来什么——包括在基因组学中首次使用上下文学习来简单地适应新任务,而无需更新预训练的模型权重。

在 Nucleotide Transformer 的微调基准上,HyenaDNA 使用参数和预训练数据少几个数量级的模型,在 17 个数据集中的 12 个上达到了 STOA。

在 GenomicBenchmarks 上,HyenaDNA 在所有 8 个数据集上平均超过 SotA +9 个准确度点。

论文链接:https://arxiv.org/abs/2306.15794

相关报道:https://hazyresearch.stanford.edu/blog/2023-06-29-hyena-dna

人工智能×[ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
7月4日俄乌最新:特别军事行动的新传奇

7月4日俄乌最新:特别军事行动的新传奇

西楼饮月
2026-07-04 21:27:55
保险卖不动了,700万人集体离场。

保险卖不动了,700万人集体离场。

流苏晚晴
2026-07-04 18:54:07
撕破脸了!郭德纲曝儿子猛料仅24小时,杨议怒骂,郭汾阳成赢家

撕破脸了!郭德纲曝儿子猛料仅24小时,杨议怒骂,郭汾阳成赢家

胡一舸南游y
2026-07-04 18:09:56
名古屋亚运会还没开,日本主办方已经先急眼了

名古屋亚运会还没开,日本主办方已经先急眼了

阿振观点
2026-07-04 19:16:05
奥运冠军庄晓岩曝丑闻:辽足训练中心教练刘某学,睡队员家长

奥运冠军庄晓岩曝丑闻:辽足训练中心教练刘某学,睡队员家长

南海浪花
2026-07-02 19:00:39
还没服务过任何人,就先摆好了当老爷的姿态!

还没服务过任何人,就先摆好了当老爷的姿态!

胖胖说他不胖
2026-07-03 15:39:28
飞机发动机每天连飞十几个小时,凭什么不用休息?

飞机发动机每天连飞十几个小时,凭什么不用休息?

平流层散步者
2026-07-04 14:06:44
撕破脸了!郭德纲曝儿子猛料仅24小时,杨议怒骂,郭汾阳成赢家

撕破脸了!郭德纲曝儿子猛料仅24小时,杨议怒骂,郭汾阳成赢家

书慧我心
2026-07-04 13:55:59
一民警在办理淫秽表演案过程中,多次与涉案女子发生不正当性关系并收10万好处费,案件怎么判?

一民警在办理淫秽表演案过程中,多次与涉案女子发生不正当性关系并收10万好处费,案件怎么判?

法律内参
2026-07-04 01:03:43
中央开始严查,多地机关事业单位大整顿启动,这几类人受影响最大

中央开始严查,多地机关事业单位大整顿启动,这几类人受影响最大

细说职场
2026-07-04 21:41:53
基辅遭饱和打击:锆石穿透核掩体,瑟尔斯基与泽连斯基公开决裂?

基辅遭饱和打击:锆石穿透核掩体,瑟尔斯基与泽连斯基公开决裂?

料峭春寒洞
2026-07-04 03:06:03
恶魔的开瓶器!这种螺旋状石头困扰科学家85年,最后竟是河狸搞的

恶魔的开瓶器!这种螺旋状石头困扰科学家85年,最后竟是河狸搞的

怪罗
2026-07-03 23:18:33
金·卡戴珊只穿内衣对镜自拍,仅用细绳遮点

金·卡戴珊只穿内衣对镜自拍,仅用细绳遮点

赴一场山海啊
2026-07-03 00:59:33
一夜动态!6笔签约达成!火箭送走史密斯,湖人艾顿1换3达成

一夜动态!6笔签约达成!火箭送走史密斯,湖人艾顿1换3达成

易说篮球
2026-07-04 08:17:19
阿媒:阿根廷战埃及首发或换三处,梅西锋线搭档再成疑问

阿媒:阿根廷战埃及首发或换三处,梅西锋线搭档再成疑问

懂球帝
2026-07-05 06:40:06
中国真实税率的另一种视角:增值税

中国真实税率的另一种视角:增值税

生命可以承受之轻
2026-07-03 16:18:06
如何判断一个人是不是性工作者?网友说看倒精方法是否老练!

如何判断一个人是不是性工作者?网友说看倒精方法是否老练!

灯锦年
2026-07-01 17:38:16
白鹿打戏被抠图惹非议,连累丞磊遭扒皮,某男星被曝耍大牌

白鹿打戏被抠图惹非议,连累丞磊遭扒皮,某男星被曝耍大牌

一盅情怀
2026-07-04 17:37:46
卖香皂的日本花王,凭什么成为半导体隐形玩家?

卖香皂的日本花王,凭什么成为半导体隐形玩家?

正解局
2026-07-03 16:52:54
中国男足全力备战亚洲杯,短期内不会与佛得角交手;一旦佛方发出正式邀约,中国足协也会认真考虑

中国男足全力备战亚洲杯,短期内不会与佛得角交手;一旦佛方发出正式邀约,中国足协也会认真考虑

澎湃新闻
2026-07-04 19:57:09
2026-07-05 09:12:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4869文章数 37483关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

浙江商人用23年从身无分文穷小子 变佛得角总理座上宾

头条要闻

浙江商人用23年从身无分文穷小子 变佛得角总理座上宾

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

亲子
家居
时尚
本地
公开课

亲子要闻

欢迎周洲阿姨来我家!

家居要闻

传奇筑 日常诗

伊姐周六热推:电视剧《画梦录》;电视剧《灿如繁星》......

本地新闻

国内足球之旅?这座小城给你高分答案

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版