网易首页 > 网易号 > 正文 申请入驻

DeepSeek论文发表16天后,国内团队已经写出了模型的“生物字典”

0
分享至

*内容来源:机器之心、测序中国微信公众号

今年1月,DeepSeek发布了一项名为Engram(条件记忆)的技术,在大模型圈子里掀起不小波澜。

它的核心思想很简单:别让模型死记硬背常识,直接给它一个“外挂记忆库”。

具体做法是:把常见的词语组合(N-gram),比如“人工智能”、“光合作用”,预先存进一个哈希表,模型需要时查表即可,省下大量算力专注推理。

这个思路,能不能用在其他领域的模型训推上?答案是:能,且效果惊人。

就在Engram论文发布仅16天后,同样位于杭州的一支研发团队,推出GengramGenomic Engram)模块,把“外挂字典”搬进了基因组世界



  • 代码链接:

    https://github.com/zhejianglab/Gengram

  • 模型链接:

    https://huggingface.co/ZhejiangLab/Gengram

  • 论文链接:

    https://arxiv.org/abs/2601.22203

传统方法的困境:

为每个碱基“重复造轮子”

当前,主流的基因组基础模型,如Deepmind的AlphaGenome等,普遍采用一种叫“单碱基分词”的策略,也就是把DNA序列拆成一个个单独的字母(A/T/C/G)来处理。

这听起来非常符合生物学逻辑,并且操作精度更高,然而代价也是巨大的。

首先是效率低下。要识别一个关键功能片段(比如启动子或剪接位点),模型得靠多层注意力机制,从零开始“拼凑”出像“TATAAAA”这样的经典碱基组合(Motif)。

其次是容易迷失。在动辄几万甚至几十万碱基的长序列中,模型常常“只见树木,不见森林”,何况人类的基因组是一串长达30亿字符的连续序列。

用更容易理解的方式来打个比方:人类学习“魑魅魍魉”时,一眼就能理解这是个成语。但传统的基因组模型却得先分析每个“鬼”字究竟是什么鬼……既要区分又要预测,最终结果就是既费力,又不准。

Gengram是怎么工作的?

Gengram的核心逻辑承袭自Engram:将“静态的Motif识别”与“动态的上下文推理”进行解耦处理

Gengram预先构建了一个可微分的哈希表,存储所有长度为1到6的DNA片段(称为k-mer,如“ATG”、“CGTA”)对应的语义向量。这些k-mer很多就是已知的生物学功能单元(比如转录因子结合位点),相当于给AI配了一本《基因组学实用短语手册》。

与其他领域相比,DNA只有4个字母(A/T/C/G)及少量未知碱基(N)构成,整个字符集极小。Gengram无需承担复杂的Tokenizer压缩负担,查表速度极快,几乎不增加计算开销。

事实上,由于功能重要性不同,并非所有Motif都需要这本“字典”的加持。为此,Gengram引入了动态门控机制

模型可以结合上下文语境自主决定何时“查字典”:在遇到外显子、启动子等关键Motif区域时激活检索功能;在通过非编码背景区域时关闭检索,依赖推理,优化资源。

经团队测试,这个门控目前已经掌握了“什么时候该查询参考资料,什么时候该独立思考”的判断能力。

小模块,大提升

事实上,Gengram只是一个仅约2000万参数的轻量化插件,对于百亿级规模的模型来说微不足道,但它带来的性能提升却令人振奋。

在8k和32k两个上下文版本中,同等训练设定下,应用了Gengram的模型几乎在所有任务里领先未应用的版本。

其中,剪接位点预测AUC提升了16.1%(从0.776到0.901),表观遗传预测任务(H3K36me3)AUC提升了22.6%(从0.656到0.804)。

这种跨越式的性能飞跃,赋予了模型惊人的数据杠杆效应。

在与多款主流DNA基础模型的横向测评中,集成Gengram的模型仅需极小规模的训练数据,和较小的激活参数量,便能在核心任务上媲美乃至超越训练数据规模领先其数十倍的公开模型,大幅提升了模型训练的数据能效比。

同时,Gengram展现出了卓越的通用适配能力,能够跨越Dense(稠密)与MoE(混合专家)等不同模型架构实现无缝部署。


跨稀疏度负载均衡:在Top-2/128、64和32专家配置下,使用与不使用Gengram模块的负载均衡损失曲线对比,表明其在多种稀疏度设置下均能实现稳定性能

此外,模型开始“涌现”出对DNA物理本质的理解。

当团队为Gengram局部聚合窗口测试窗口大小策略时,结果显示:窗口大小参数设置为21bp时,其性能达到峰值

为什么偏偏是21?

因为DNA双螺旋结构每10.5个碱基对旋转一圈,而21个碱基对正好对应两个完整的螺旋周期。这意味着,每相隔21bp的碱基在物理空间上其实位于螺旋的同一侧,具备相似的生化环境和特征。

换句话说,Gengram在没有学习过任何结构生物学知识的前提下,通过计算自己悟到了DNA序列信息和空间相位规律


DNA双螺旋结构示意图展示了B型DNA的结构参数,DNA双螺旋每10.5个碱基对旋转一圈


不同Gengram窗口大小下的验证损失,由此选择了21宽度的窗口

范式启示:

Gengram为AI科学模型提供新探索路径

Gengram的成功,远不止于解决基因组建模的特定难题。它更像一个精巧的概念验证,为如何构建新一代懂科学的AI探索了一种新的模式。

从“暴力记忆”到“结构化知识外挂”:效率范式的转变。传统AI模型增强能力主要靠扩张参数与数据,本质是让网络更费力地“记住”一切。Gengram则将领域内确凿的、结构化的先验知识(如功能Motif)做成一个轻量、可查询的外部知识库。这让核心模型能从繁琐的模式记忆中解脱,专注于更高级的上下文推理与组合创新。这预示着,未来科学基础模型的架构,可能是“通用模型核心+多个领域专用插件”的协同形态。

“归纳偏置”注入:生物物理规律的“硬编码”通过将B型DNA双螺旋每10.5个碱基完成一个旋转周期(即约21bp的双圈周期)这一结构特性,显式转化为模型内部的局部窗口机制,Gengram成功地将这种物理空间相位的周期性作为先验知识注入模型,使其能够捕捉特定相位的立体化学模式和蛋白质绑定偏好。

可解释性的内生设计:让AI的“思维过程”透明化模型不再仅仅进行隐式的统计拟合,而是通过显式的Hash查询和门控记忆通路,在浅层即展现出对TATA-box、poly(T)等关键功能基元的高度敏感性,其内部残差强度的峰值与基因组功能边界精准对齐,实现了从“黑盒计算”向“具备生物学认知足迹”的演进。

解决长程依赖的新路径:从局部最优到全局洞察实验证明,Gengram使得仅在8K长度上训练的模型,却获得了处理32K长序列的优异能力。这为基因调控元件预测、表观遗传学分析、跨物种进化分析以及复杂的多组学建模等复杂长序列问题,开辟了精细化局部感知驱动全局理解的新途径。

Gengram建立了一种将领域特有规律转化为显式架构约束的创新范式,证明了通过精细化的局部结构化感知可以有效弥补标称上下文长度的局限,实现低成本且高效的长程依赖建模。

低调的Genos Team

Gengram的发布,让人们将目光投向了杭州AI版图的另一块重要拼图Genos团队。这支低调的团队结合了华大生命科学研究院的组学大数据经验,与之江实验室的计算和模型能力。这种交叉创新壁垒,这是单纯的 计算机科学团队或 生命科学团队 无法比拟的优势。

论文里的实验,大多基于人类基因组基础模型Genos实现,Genos是研发团队于去年10月发布的,从可公开获取的信息来看,Genos多数指标都超越了当前的业界顶流Evo-2。目前,Genos已应用于华大基因面向遗传病临床检测的大语言模型GeneT,助力提高遗传病分析解读的水平。

如果说DeepSeek证明了通用AI的极限,那么Genos团队则用行动展示了当AI深度对齐生物学逻辑时,我们离真正读懂“生命之书”又近了一大步。


让我知道你“在看”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏一女子被茶宠青花瓷麒麟“咬了”,求助消防后脱困:想试下它嘴巴里的结构,结果一下卡住,大家别学我

江苏一女子被茶宠青花瓷麒麟“咬了”,求助消防后脱困:想试下它嘴巴里的结构,结果一下卡住,大家别学我

台州交通广播
2026-02-05 17:54:55
事关郑州春节燃放烟花爆竹!最新消息

事关郑州春节燃放烟花爆竹!最新消息

郑州新闻广播
2026-02-05 20:48:28
留学生的爸妈能有多离谱?网友:我在利物浦,我爸非说我在飞利浦

留学生的爸妈能有多离谱?网友:我在利物浦,我爸非说我在飞利浦

带你感受人间冷暖
2026-02-04 00:30:03
人民日报头版报道金龙鱼,38年投资1000亿元,抽检合格率100%

人民日报头版报道金龙鱼,38年投资1000亿元,抽检合格率100%

数字财经智库
2026-02-05 23:44:45
国共论坛结束,大陆宣布重要决定,给郑丽文面子,发布一项通行令

国共论坛结束,大陆宣布重要决定,给郑丽文面子,发布一项通行令

大鱼简科
2026-02-05 22:07:25
64岁前央视主持徐俐现状:离婚带娃定居农村,守着小院看花开花落

64岁前央视主持徐俐现状:离婚带娃定居农村,守着小院看花开花落

小徐讲八卦
2026-02-05 18:30:43
巴拿马出现重大转折,特朗普在空军一号上发话:中国定能大赚一笔

巴拿马出现重大转折,特朗普在空军一号上发话:中国定能大赚一笔

咸鱼金脑袋
2026-02-04 20:52:42
美国犹太人资本巨头贝莱德,已经全面渗透中国市场

美国犹太人资本巨头贝莱德,已经全面渗透中国市场

素颜为谁倾城人
2026-02-05 08:01:11
法官问为何不交物业费,业主反问:不交税违法,不交费违法吗

法官问为何不交物业费,业主反问:不交税违法,不交费违法吗

蜉蝣说
2026-02-03 16:31:54
拜合拉木将租借加盟成都蓉城:想进军国足,联赛表现必须提升

拜合拉木将租借加盟成都蓉城:想进军国足,联赛表现必须提升

体育大嘴儿
2026-02-05 00:46:18
从1000km到300km!小米汽车降低辅助驾驶安全里程门槛

从1000km到300km!小米汽车降低辅助驾驶安全里程门槛

每日经济新闻
2026-02-05 18:21:04
曾经的亚洲第一美人,年轻时倾国倾城,现在却老了。美人也会老啊

曾经的亚洲第一美人,年轻时倾国倾城,现在却老了。美人也会老啊

老吴教育课堂
2026-02-05 10:46:14
十四世达赖在爱泼斯坦档案中被提及168次

十四世达赖在爱泼斯坦档案中被提及168次

观察者网
2026-02-05 21:58:04
路都走不稳,全程开原音假唱,还想去鸟巢开演唱会,谁给她的自信

路都走不稳,全程开原音假唱,还想去鸟巢开演唱会,谁给她的自信

动物奇奇怪怪
2026-02-04 07:04:47
哈尔滨冰雪大世界部分冰雕热到滴水,一周后当地还将升温超10℃,工作人员:不会再补冰,闭园时间待定

哈尔滨冰雪大世界部分冰雕热到滴水,一周后当地还将升温超10℃,工作人员:不会再补冰,闭园时间待定

极目新闻
2026-02-05 17:56:17
1900万粉丝军事大V“听风的蚕”遭平台重锤,违规细节曝光!

1900万粉丝军事大V“听风的蚕”遭平台重锤,违规细节曝光!

水泥土的搞笑
2026-02-05 07:23:53
为什么说中国今后制裁日本会变得越来越难?

为什么说中国今后制裁日本会变得越来越难?

扶苏聊历史
2026-02-05 17:38:29
美国十大领域全球领跑,差距还在拉大,正视实力才是真清醒!

美国十大领域全球领跑,差距还在拉大,正视实力才是真清醒!

保德全
2026-02-03 19:30:03
4招打疼巴拿马!美国给我们上了一课,中国要给世界立2个规矩

4招打疼巴拿马!美国给我们上了一课,中国要给世界立2个规矩

小非喜欢解说
2026-02-06 02:24:47
23岁的他成斯洛特走向复兴的保障:射术精湛能力全面,姆巴佩点赞

23岁的他成斯洛特走向复兴的保障:射术精湛能力全面,姆巴佩点赞

里芃芃体育
2026-02-06 05:00:07
2026-02-06 06:16:49
华大集团BGI
华大集团BGI
基因科技造福人类
2195文章数 1968关注度
往期回顾 全部

科技要闻

美团买下叮咚买菜,防御还是进击?

头条要闻

与爱泼斯坦共舞嬉笑的神秘红衣女子身份披露

头条要闻

与爱泼斯坦共舞嬉笑的神秘红衣女子身份披露

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

旅游
教育
时尚
健康
游戏

旅游要闻

逛遍茂县古羌城才懂,这里的碉楼,每块石头都有故事!

教育要闻

弥勒融媒研学小记者走进国防教育,触摸历史

她随手打赏就是6两黄金:人美,心善,钱多!

耳石症分类型,症状大不同

《无主之地4》现已通过Steam Deck验证

无障碍浏览 进入关怀版