网易首页 > 网易号 > 正文 申请入驻

训练速度比Transformer快160倍,一种在人类参考基因组上进行预训练的基因组基础模型

0
分享至

ScienceAI设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 萝卜皮

基因组 (DNA) 序列编码大量用于基因调控和蛋白质合成的信息。与自然语言模型类似,科学家提出了基因组学的基础模型,从未标记的基因组数据中学习可概括的特征,然后可以针对下游任务(例如识别调控元件)进行微调。

由于注意力的二次缩放,之前基于 Transformer 的基因组模型使用 512 到 4k 个标记作为上下文(< 人类基因组的 0.001%),极大地限制了 DNA 中远程相互作用的建模。

此外,这些方法依赖标记器来聚合有意义的 DNA 单元,从而失去单核苷酸分辨率,其中细微的遗传变异可以通过单核苷酸多态性 (SNP) 完全改变蛋白质功能。

最近,基于隐式卷积的大型语言模型 Hyena 被证明可以在质量上匹配注意力,同时允许更长的上下文长度和更低的时间复杂度。

利用 Hyenas 新的远程功能,斯坦福大学(Stanford University)的研究人员推出了 HyenaDNA,这是一种在人类参考基因组上进行预训练的基因组基础模型,在单核苷酸水平上上下文长度高达 100 万个标记,比之前基于密集注意力的模型增加了 500 倍。

该研究以「HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution」为题,于 2023 年 6 月 27 日发布在 arXiv 预印平台。

背景

尽管增加上下文长度基准很有趣,但提高基因组学中的上下文长度和表达能力的潜在影响可能更具价值。尽管人类基因组已经被绘制出来,它提供了序列中核苷酸的顺序;但序列空间如何映射到功能、性状、疾病和许多其他问题,仍然是一项正在进行的研究工作。破解遗传密码将有助于我们更好地了解疾病(遗传性疾病),并通过基因表达建模(和识别药物靶点)实现药物发现的突破。

以前的基因组学模型

将基础模型应用于基因组学(例如,DNABERT、Nucleotide Transformer、GenSLM、GENA-LM),将 DNA 建模为生命的「语言」,已经取得了令人惊叹的工作。不幸的是,这些工作受到 Transformer 中注意力二次缩放的限制,并且到目前为止通常使用 512 - 4k 标记之间的上下文长度,具体取决于密集或稀疏注意力。这还不到人类基因组长度的 0.001%。(与具有相当“短程”序列的蛋白质模型相比,基因组学的建立要少得多。)

同样重要且具有挑战性的是对高分辨率的需求。事实上,所有基因组 FM 都依赖标记器来聚合有意义的 DNA 单元或「单词」,或使用固定的 k 聚体,这些固定的 k 聚体具有大小为 k 且彼此重叠的固定「单词」。这些「技巧」也有助于延长上下文。然而,单核苷酸多态性(SNP)的存在表明,单个 DNA 特征的变化可以完全改变基因、蛋白质功能,或导致细胞进入疾病状态。

这意味着长上下文和单核苷酸分辨率在基因组学中都至关重要!相比之下,对于自然语言来说,章节中单个字符或单词的变化并不会真正改变语义。已经有单字符分词器的研究,但他们一直在处理较长的序列和表现不佳的 BPE 或子词分词器。

HyenaDNA:Hyena 与基因组学的结合

HyenaDNA 是一种基因组基础模型,在单核苷酸分辨率下对长达 100 万个标记的序列进行了预训练。随着上下文长度的增加,研究人员可以通过改善困惑度来达到更好的性能。

HyenaDNA 的训练速度比使用 FlashAttention 的 Transformer 快 160 倍,使用单字符分词器,并且每层都有全局上下文。研究人员将 HyenaDNA 应用于 28 个基因组任务(SOTA 应用于 23 个),使用的参数比以前的基因组模型少得多,并且示例适合 Colab。

图示:研究人员在模型大小和序列长度方面预训练了一系列 HyenaDNA 模型。

含有 HyenaDNA 的 1M 核苷酸标记

为了对 DNA 和这些相互作用进行建模,HyenaDNA 使用简单的 Hyena 运算符堆栈作为其骨干(甚至更多架构细节),并使用单个字符标记器处理 DNA 序列。通过学习 DNA 序列的分布,HyenaDNA 使用无监督学习来隐式学习基因编码方式以及非编码区如何参与调节基因表达的表示。

图示:(左)HyenaDNA 块类似于 Transformer-decoder 块,但注意力被交换为 Hyena Operator。(中)Hyena 算子是长卷积和逐元素门的交错。这些门使用输入的投影,由密集且短的卷积层组成。(右)长卷积通过 MLP 隐式参数化,该 MLP 创建长 Hyena 滤波器的权重。

技术亮点:

研究人员训练了一系列具有不同大小和上下文长度的 HyenaDNA 模型。

1、预训练:上下文长度高达 1M 个 token,比以前的基因组 FM 长 500 倍;

2、单核苷酸解析和标记化(词汇量为 4!),每一层都有全局上下文;

3、序列长度 (N Log N) 呈二次方缩放,例如,序列长度为 100 万时,训练速度比 Transformer 快 160 倍;

4、引入序列长度预热调度程序来解决不稳定性并进一步加速训练,例如,450k 核苷酸的物种分类训练时间减少 40%

图示:研究人员对 HyenaDNA 与 Transformer 的前向和后向传递运行时间进行了基准测试。

该团队探索了更长的上下文可以带来什么——包括在基因组学中首次使用上下文学习来简单地适应新任务,而无需更新预训练的模型权重。

在 Nucleotide Transformer 的微调基准上,HyenaDNA 使用参数和预训练数据少几个数量级的模型,在 17 个数据集中的 12 个上达到了 STOA。

在 GenomicBenchmarks 上,HyenaDNA 在所有 8 个数据集上平均超过 SotA +9 个准确度点。

论文链接:https://arxiv.org/abs/2306.15794

相关报道:https://hazyresearch.stanford.edu/blog/2023-06-29-hyena-dna

人工智能×[ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重磅:中央释放三大政策信号!

重磅:中央释放三大政策信号!

华山穹剑
2025-11-02 19:10:49
红军城乌军开始投降了

红军城乌军开始投降了

那山星火
2025-11-02 08:37:08
《亮剑》20年后,两位演员遗憾离世,漂亮的“秀芹”低调嫁人

《亮剑》20年后,两位演员遗憾离世,漂亮的“秀芹”低调嫁人

三楼的猫头鹰
2025-11-02 15:31:48
有关北京供暖,最新进展!

有关北京供暖,最新进展!

BRTV新闻
2025-11-02 20:38:36
潘石屹再次预判我国楼市!未来3年,楼市或迎来“三大”走向

潘石屹再次预判我国楼市!未来3年,楼市或迎来“三大”走向

爱看剧的阿峰
2025-11-02 16:02:00
台湾统一后,为啥不能走港澳的路子?统一后的台湾不再是问题岛屿

台湾统一后,为啥不能走港澳的路子?统一后的台湾不再是问题岛屿

贱议你读史
2025-11-03 01:12:56
杨瀚森发展联盟好刷数据?杨毅:人家拿球能给你么,姥姥!

杨瀚森发展联盟好刷数据?杨毅:人家拿球能给你么,姥姥!

阿纂看事
2025-11-02 15:32:11
马卡:维尼修斯抢罚点球破坏了姆巴佩戴帽的机会,后者无表示

马卡:维尼修斯抢罚点球破坏了姆巴佩戴帽的机会,后者无表示

懂球帝
2025-11-02 09:26:05
苏超收视率超WTT,冠军教头未得最佳教练,球员抛起来的也不是她

苏超收视率超WTT,冠军教头未得最佳教练,球员抛起来的也不是她

第五才子
2025-11-02 21:14:27
年轻人正在逃离上海,577万老人占比超37%,上海究竟怎么了?

年轻人正在逃离上海,577万老人占比超37%,上海究竟怎么了?

Hi科普啦
2025-11-02 12:05:03
陕西女护士遇害后续!毕业十年没谈过对象,被男友下药拍照威胁

陕西女护士遇害后续!毕业十年没谈过对象,被男友下药拍照威胁

奇思妙想草叶君
2025-11-02 23:56:39
天呐!巩俐这身材太惊艳了,胸围几乎到肚脐,状态却依旧十分亮眼

天呐!巩俐这身材太惊艳了,胸围几乎到肚脐,状态却依旧十分亮眼

TVB的四小花
2025-10-22 02:25:03
人民日报专访,揭开32岁周深的真实处境,那英确实一个字都没说错

人民日报专访,揭开32岁周深的真实处境,那英确实一个字都没说错

八斗小先生
2025-11-01 08:46:54
有媒体评历史百大运动员:梅西仅第三!詹姆斯落后乔丹!

有媒体评历史百大运动员:梅西仅第三!詹姆斯落后乔丹!

氧气是个地铁
2025-11-02 23:06:22
中国与朝鲜关于长白山归属问题的争议,历经多年,尘埃落定了吗

中国与朝鲜关于长白山归属问题的争议,历经多年,尘埃落定了吗

抽象派大师
2025-11-02 21:40:37
歹徒绑架女富婆,将其强奸,3天后歹徒却哭着说:钱不要了你快走吧

歹徒绑架女富婆,将其强奸,3天后歹徒却哭着说:钱不要了你快走吧

悬案解密档案
2025-10-21 09:31:32
德转列中前卫身价榜:佩德里1.4亿欧居首,巴尔韦德第二

德转列中前卫身价榜:佩德里1.4亿欧居首,巴尔韦德第二

懂球帝
2025-11-03 00:36:08
3-0!62岁穆帅激活本菲卡,3连胜狂轰11球,10轮不败+距榜首仅1分

3-0!62岁穆帅激活本菲卡,3连胜狂轰11球,10轮不败+距榜首仅1分

我爱英超
2025-11-02 07:00:44
小米YU9全面曝光,年轻人第一台“路虎揽胜”来了

小米YU9全面曝光,年轻人第一台“路虎揽胜”来了

科技头版Pro
2025-10-31 14:47:29
特朗普威胁对尼日利亚采取军事行动

特朗普威胁对尼日利亚采取军事行动

参考消息
2025-11-02 09:58:05
2025-11-03 02:00:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4296文章数 37332关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

数码
本地
时尚
亲子
公开课

数码要闻

麒麟9030处理器突然曝光:1+4+4六核狂飙,可惜工艺不详!

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

最近很火的发型,原来这么简单!

亲子要闻

Two Teen Geniuses Solve Rubik's Cube in Perfect Sy...

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版