DeepSeek论文发表16天后，国内团队已经写出了模型的“生物字典”|序列|显式|dna|deepseek

DeepSeek论文发表16天后，国内团队已经写出了模型的“生物字典”

2026-02-05 16:53:04　来源: 华大集团BGI

广东举报

分享至

*内容来源：机器之心、测序中国微信公众号

今年1月，DeepSeek发布了一项名为Engram（条件记忆）的技术，在大模型圈子里掀起不小波澜。

它的核心思想很简单：别让模型死记硬背常识，直接给它一个“外挂记忆库”。

具体做法是：把常见的词语组合（N-gram），比如“人工智能”、“光合作用”，预先存进一个哈希表，模型需要时查表即可，省下大量算力专注推理。

这个思路，能不能用在其他领域的模型训推上？答案是：能，且效果惊人。

就在Engram论文发布仅16天后，同样位于杭州的一支研发团队，推出Gengram（Genomic Engram）模块，把“外挂字典”搬进了基因组世界。

代码链接：
https://github.com/zhejianglab/Gengram
模型链接：
https://huggingface.co/ZhejiangLab/Gengram
论文链接：
https://arxiv.org/abs/2601.22203

传统方法的困境：

为每个碱基“重复造轮子”

当前，主流的基因组基础模型，如Deepmind的AlphaGenome等，普遍采用一种叫“单碱基分词”的策略，也就是把DNA序列拆成一个个单独的字母（A/T/C/G）来处理。

这听起来非常符合生物学逻辑，并且操作精度更高，然而代价也是巨大的。

首先是效率低下。要识别一个关键功能片段（比如启动子或剪接位点），模型得靠多层注意力机制，从零开始“拼凑”出像“TATAAAA”这样的经典碱基组合（Motif）。

其次是容易迷失。在动辄几万甚至几十万碱基的长序列中，模型常常“只见树木，不见森林”，何况人类的基因组是一串长达30亿字符的连续序列。

用更容易理解的方式来打个比方：人类学习“魑魅魍魉”时，一眼就能理解这是个成语。但传统的基因组模型却得先分析每个“鬼”字究竟是什么鬼……既要区分又要预测，最终结果就是既费力，又不准。

Gengram是怎么工作的？

Gengram的核心逻辑承袭自Engram：将“静态的Motif识别”与“动态的上下文推理”进行解耦处理。

Gengram预先构建了一个可微分的哈希表，存储所有长度为1到6的DNA片段（称为k-mer，如“ATG”、“CGTA”）对应的语义向量。这些k-mer很多就是已知的生物学功能单元（比如转录因子结合位点），相当于给AI配了一本《基因组学实用短语手册》。

与其他领域相比，DNA只有4个字母（A/T/C/G）及少量未知碱基（N）构成，整个字符集极小。Gengram无需承担复杂的Tokenizer压缩负担，查表速度极快，几乎不增加计算开销。

事实上，由于功能重要性不同，并非所有Motif都需要这本“字典”的加持。为此，Gengram引入了动态门控机制。

模型可以结合上下文语境自主决定何时“查字典”：在遇到外显子、启动子等关键Motif区域时激活检索功能；在通过非编码背景区域时关闭检索，依赖推理，优化资源。

经团队测试，这个门控目前已经掌握了“什么时候该查询参考资料，什么时候该独立思考”的判断能力。

小模块，大提升

事实上，Gengram只是一个仅约2000万参数的轻量化插件，对于百亿级规模的模型来说微不足道，但它带来的性能提升却令人振奋。

在8k和32k两个上下文版本中，同等训练设定下，应用了Gengram的模型几乎在所有任务里领先未应用的版本。

其中，剪接位点预测AUC提升了16.1%（从0.776到0.901），表观遗传预测任务（H3K36me3）AUC提升了22.6%（从0.656到0.804）。

这种跨越式的性能飞跃，赋予了模型惊人的数据杠杆效应。

在与多款主流DNA基础模型的横向测评中，集成Gengram的模型仅需极小规模的训练数据，和较小的激活参数量，便能在核心任务上媲美乃至超越训练数据规模领先其数十倍的公开模型，大幅提升了模型训练的数据能效比。

同时，Gengram展现出了卓越的通用适配能力，能够跨越Dense（稠密）与MoE（混合专家）等不同模型架构实现无缝部署。

跨稀疏度负载均衡：在Top-2/128、64和32专家配置下，使用与不使用Gengram模块的负载均衡损失曲线对比，表明其在多种稀疏度设置下均能实现稳定性能

此外，模型开始“涌现”出对DNA物理本质的理解。

当团队为Gengram局部聚合窗口测试窗口大小策略时，结果显示：窗口大小参数设置为21bp时，其性能达到峰值。

为什么偏偏是21？

因为DNA双螺旋结构每10.5个碱基对旋转一圈，而21个碱基对正好对应两个完整的螺旋周期。这意味着，每相隔21bp的碱基在物理空间上其实位于螺旋的同一侧，具备相似的生化环境和特征。

换句话说，Gengram在没有学习过任何结构生物学知识的前提下，通过计算自己悟到了DNA序列信息和空间相位规律。

DNA双螺旋结构示意图展示了B型DNA的结构参数，DNA双螺旋每10.5个碱基对旋转一圈

不同Gengram窗口大小下的验证损失，由此选择了21宽度的窗口

范式启示：

Gengram为AI科学模型提供新探索路径

Gengram的成功，远不止于解决基因组建模的特定难题。它更像一个精巧的概念验证，为如何构建新一代懂科学的AI探索了一种新的模式。

从“暴力记忆”到“结构化知识外挂”：效率范式的转变。传统AI模型增强能力主要靠扩张参数与数据，本质是让网络更费力地“记住”一切。Gengram则将领域内确凿的、结构化的先验知识（如功能Motif）做成一个轻量、可查询的外部知识库。这让核心模型能从繁琐的模式记忆中解脱，专注于更高级的上下文推理与组合创新。这预示着，未来科学基础模型的架构，可能是“通用模型核心+多个领域专用插件”的协同形态。

“归纳偏置”注入：生物物理规律的“硬编码”。通过将B型DNA双螺旋每10.5个碱基完成一个旋转周期（即约21bp的双圈周期）这一结构特性，显式转化为模型内部的局部窗口机制，Gengram成功地将这种物理空间相位的周期性作为先验知识注入模型，使其能够捕捉特定相位的立体化学模式和蛋白质绑定偏好。

可解释性的内生设计：让AI的“思维过程”透明化。模型不再仅仅进行隐式的统计拟合，而是通过显式的Hash查询和门控记忆通路，在浅层即展现出对TATA-box、poly(T)等关键功能基元的高度敏感性，其内部残差强度的峰值与基因组功能边界精准对齐，实现了从“黑盒计算”向“具备生物学认知足迹”的演进。

解决长程依赖的新路径：从局部最优到全局洞察。实验证明，Gengram使得仅在8K长度上训练的模型，却获得了处理32K长序列的优异能力。这为基因调控元件预测、表观遗传学分析、跨物种进化分析以及复杂的多组学建模等复杂长序列问题，开辟了精细化局部感知驱动全局理解的新途径。

Gengram建立了一种将领域特有规律转化为显式架构约束的创新范式，证明了通过精细化的局部结构化感知可以有效弥补标称上下文长度的局限，实现低成本且高效的长程依赖建模。

低调的Genos Team

Gengram的发布，让人们将目光投向了杭州AI版图的另一块重要拼图Genos团队。这支低调的团队结合了华大生命科学研究院的组学大数据经验，与之江实验室的计算和模型能力。这种交叉创新壁垒，这是单纯的计算机科学团队或生命科学团队无法比拟的优势。

论文里的实验，大多基于人类基因组基础模型Genos实现，Genos是研发团队于去年10月发布的，从可公开获取的信息来看，Genos多数指标都超越了当前的业界顶流Evo-2。目前，Genos已应用于华大基因面向遗传病临床检测的大语言模型GeneT，助力提高遗传病分析解读的水平。

如果说DeepSeek证明了通用AI的极限，那么Genos团队则用行动展示了当AI深度对齐生物学逻辑时，我们离真正读懂“生命之书”又近了一大步。

让我知道你“在看”

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.