网易首页 > 网易号 > 正文 申请入驻

DeepSeek论文发表16天后,国内团队已经写出了模型的「生物字典」

0
分享至


来源:AI思想会

【前言】AI 正以前所未有的速度发展,新的机遇不断涌现,如果你希望:与技术专家、产品经理和创业者深度交流,一起探索 AI如何改变各行各业。欢迎在文末扫二维码,加入「AI思想会」交流群,和一群志同道合的伙伴共同学习、思考、创造!

今年 1 月,DeepSeek 发布了一项名为 Engram(条件记忆)的技术,在大模型圈子里掀起不小波澜。

它的核心思想很简单:别让模型死记硬背常识,直接给它一个「外挂记忆库」。

具体做法是:把常见的 N-gram,比如「人工智能」、「光合作用」,预先存进一个哈希表,模型需要时查表即可,省下大量算力专注推理。

这个思路,能不能用在其他领域的模型训推上?答案是:能,且效果惊人。

就在 Engram 论文(《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》)发布仅 16 天后,同样 base 在杭州的一支研发团队,推出Gengram(Genomic Engram)模块,把「外挂字典」搬进了基因组世界。


  • 代码链接: https://github.com/zhejianglab/Gengram

  • 模型链接: https://huggingface.co/ZhejiangLab/Gengram

  • 论文链接: https://github.com/zhejianglab/Gengram/tree/main/paper

传统方法的困境:为每个碱基「重复造轮子」

当前,主流的基因组基础模型(Genomic Foundation Models, GFMs),如 Deepmind 的 AlphaGenome 等,普遍采用一种叫「单碱基分词」的策略,也就是把 DNA 序列拆成一个个单独的字母(A/T/C/G)来处理。

这听起来非常符合生物学逻辑,并且操作精度更高,然而代价也是巨大的。

首先是效率低下。要识别一个关键功能片段(比如启动子或剪接位点),模型得靠多层注意力机制,从零开始「拼凑」出像「TATAAAA」这样的经典碱基组合(Motif)。

其次是容易迷失。在动辄几万甚至几十万碱基的长序列中,模型常常「只见树木,不见森林」,何况人类的基因组是一串长达 30 亿字符的连续序列。

用更容易理解的方式来打个比方:人类学习「魑魅魍魉」时,一眼就能理解这是个成语。但传统的基因组模型却得先分析每个「鬼」字究竟是什么鬼…… 既要区分又要预测,最终结果就是既费力,又不准。

Gengram 是怎么工作的?

Gengram 的核心逻辑承袭自 Engram:将「静态的 Motif 识别」与「动态的上下文推理」进行解耦处理

Gengram 预先构建了一个可微分的哈希表,存储所有长度为 1 到 6 的 DNA 片段(称为 k-mer,如「ATG」、「CGTA」)对应的语义向量。这些 k-mer 很多就是已知的生物学功能单元(比如转录因子结合位点),相当于给 AI 配了一本《基因组学实用短语手册》。

与其他领域相比,DNA 只有 4 个字母(A/T/C/G)及少量未知碱基(N)构成,整个字符集极小。Gengram 无需承担复杂的 Tokenizer 压缩负担,查表速度极快,几乎不增加计算开销。

事实上,由于功能重要性不同,并非所有 Motif 都需要这本「字典」的加持。为此,Gengram 引入了动态门控机制

模型可以结合上下文语境自主决定何时「查字典」:在遇到外显子、启动子等关键 Motif 区域时激活检索功能;在通过非编码背景区域时关闭检索,依赖推理,优化资源。

经团队测试,这个门控目前已经掌握了「什么时候该查询参考资料,什么时候该独立思考」的判断能力。

小模块,大提升

事实上,Gengram 只是一个仅约 2000 万参数的轻量化插件,对于百亿级规模的模型来说微不足道,但它带来的性能提升却令人振奋。

在 8k 和 32k 两个上下文版本中,同等训练设定下,应用了 Gengram 的模型几乎在所有任务里领先未应用的版本。

其中,剪接位点预测 AUC 提升了16.1%(从 0.776 到 0.901),表观遗传预测任务(H3K36me3) AUC 提升了22.6%(从 0.656 到 0.804)。

这种跨越式的性能飞跃,赋予了模型惊人的数据杠杆效应。

在与多款主流 DNA 基础模型的横向测评中,集成 Gengram 的模型仅需极小规模的训练数据,和较小的激活参数量,便能在核心任务上媲美乃至超越训练数据规模领先其数十倍的公开模型,大幅提升了模型训练的数据能效比。

同时,Gengram 展现出了卓越的通用适配能力,能够跨越 Dense(稠密) 与 MoE(混合专家) 等不同模型架构实现无缝部署。

无论采用何种注意力机制变体,Gengram 均能在有效降低训练损失的同时,显著加速模型收敛。特别是针对 MoE 架构中专家负载失衡这一顽疾,Gengram 通过吸收局部高频噪声,显著改善了专家负载均衡,实现了模型性能与架构效率的协同跨越。



跨稀疏度负载均衡:在 Top-2 / 128、64 和 32 专家配置下,使用与不使用 Gengram 模块的负载均衡损失曲线对比,表明其在多种稀疏度设置下均能实现稳定性能。

此外,模型开始「涌现」出对 DNA 物理本质的理解。

当团队为 Gengram 局部聚合窗口(Local Window Aggregation)测试窗口大小策略时,结果显示:窗口大小参数设置为 21bp 时,其性能达到峰值

为什么偏偏是 21?

因为 DNA 双螺旋结构每 10.5 个碱基旋转一圈,而 21 个碱基正好对应两个完整的螺旋周期。这意味着,每相隔 21bp 的碱基在物理空间上其实位于螺旋的同一侧,具备相似的生化环境和特征。

换句话说,Gengram 在没有学习过任何结构生物学知识的前提下,通过计算自己悟到了 DNA 序列信息和空间相位规律。



DNA 双螺旋结构示意图展示了 B 型 DNA 的结构参数,DNA 双螺旋每 10.5 个碱基对旋转一圈。



不同 Gengram 窗口大小下的验证损失,由此选择了 21 宽度的窗口

范式启示:Gengram 为 AI 科学模型提供新探索路径

Gengram 的成功,远不止于解决基因组建模的特定难题。它更像一个精巧的概念验证,为如何构建新一代懂科学的 AI 探索了一种新的模式。

从「暴力记忆」到「结构化知识外挂」:效率范式的转变。传统 AI 模型增强能力主要靠扩张参数与数据,本质是让网络更费力地「记住」 一切。Gengram 则将领域内确凿的、结构化的先验知识(如功能 Motif)做成一个轻量、可查询的外部知识库。这让核心模型能从繁琐的模式记忆中解脱,专注于更高级的上下文推理与组合创新。这预示着,未来科学基础模型的架构,可能是「通用模型核心+多个领域专用插件」的协同形态。

「归纳偏置」注入:生物物理规律的「硬编码」。通过将 B 型 DNA 双螺旋每 10.5 个碱基完成一个旋转周期(即约 21 bp 的双圈周期)这一结构特性,显式转化为模型内部的局部窗口机制,Gengram 成功地将这种物理空间相位的周期性作为先验知识注入模型,使其能够捕捉特定相位的立体化学模式和蛋白质绑定偏好。

可解释性的内生设计:让 AI 的「思维过程」透明化。模型不再仅仅进行隐式的统计拟合,而是通过显式的 Hash 查询和门控记忆通路,在浅层即展现出对 TATA-box、poly (T) 等关键功能基元的高度敏感性,其内部残差强度的峰值与基因组功能边界精准对齐,实现了从「黑盒计算」向「具备生物学认知足迹」的演进。

解决长程依赖的新路径:从局部最优到全局洞察。实验证明,Gengram 使得仅在 8K 长度上训练的模型,却获得了处理 32K 长序列的优异能力。这为基因调控元件预测、表观遗传学分析、跨物种进化分析以及复杂的多组学建模等复杂长序列问题,开辟了精细化局部感知驱动全局理解的新途径。

Gengram 建立了一种将领域特有规律转化为显式架构约束的创新范式,证明了通过精细化的局部结构化感知可以有效弥补标称上下文长度的局限,实现低成本且高效的长程依赖建模。

低调的 Genos Team 是啥背景?

尽管论文署名低调地使用了「Genos Team」,但从开源代码库的 Zhejianglab 和 BGI-HangzhouAI 能够推断出这支团队的硬核背景:一家是坐落在杭州的专注于智能计算的新型研发机构之江实验室,另一家是杭州华大生命科学研究院。

两个团队的融合,构建起「AI + 生命科学」的交叉创新壁垒,这是纯 CS 团队或纯基因团队无法比拟的优势。

论文里的实验,大多基于人类基因组基础模型 Genos 实现,从可公开获取的信息来看,Genos 多数指标都超越了目前的业界顶流 Evo-2

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2死3失联!这座桥为何在众目睽睽之下突然垮塌?

2死3失联!这座桥为何在众目睽睽之下突然垮塌?

民言民语
2026-02-03 08:45:05
小车直接断成两截,司机雷某某(女,60岁)抢救无效死亡

小车直接断成两截,司机雷某某(女,60岁)抢救无效死亡

南方都市报
2026-02-03 16:20:06
大陆第一网红新片翻车!讽春晚审查「不好笑毙掉」惨遭全平台下架

大陆第一网红新片翻车!讽春晚审查「不好笑毙掉」惨遭全平台下架

ETtoday星光云
2026-02-03 10:18:23
小米解散SU7 Ultra专业团队,雷军高端梦“破灭”!

小米解散SU7 Ultra专业团队,雷军高端梦“破灭”!

互联网品牌官
2026-02-03 16:47:44
新规来了!从1号起,农民卖蔬菜、水果等农产品,要开具合格证明

新规来了!从1号起,农民卖蔬菜、水果等农产品,要开具合格证明

我心纵横天地间
2026-02-03 22:57:23
纽约尾盘,现货黄金跌4.54%

纽约尾盘,现货黄金跌4.54%

每日经济新闻
2026-02-03 06:10:14
16GB+1TB!新机官宣:3月1日,全球首发亮相!

16GB+1TB!新机官宣:3月1日,全球首发亮相!

科技堡垒
2026-02-02 13:35:14
外交部:强烈谴责瓜达尔港袭击事件,中方坚决反对一切形式的恐怖主义

外交部:强烈谴责瓜达尔港袭击事件,中方坚决反对一切形式的恐怖主义

每日经济新闻
2026-02-03 20:28:42
日活破亿!张一鸣又赌对了:字节迎来第五个爆款APP

日活破亿!张一鸣又赌对了:字节迎来第五个爆款APP

快科技
2026-02-04 00:32:29
韩媒:中国欠特朗普一声谢谢!要不是美国打压,中国芯不会那么强

韩媒:中国欠特朗普一声谢谢!要不是美国打压,中国芯不会那么强

互联网.乱侃秀
2026-02-03 10:27:19
小网红称给嫣然捐了5000W,被网友嘲讽是吹牛,李亚鹏却出面证实

小网红称给嫣然捐了5000W,被网友嘲讽是吹牛,李亚鹏却出面证实

新游戏大妹子
2026-02-03 13:42:47
金刻羽:比起其学术成就,人们更喜欢看一颗优质大白菜被野猪拱了

金刻羽:比起其学术成就,人们更喜欢看一颗优质大白菜被野猪拱了

廖保平
2026-02-03 09:05:59
中国成功研制出一款星链干扰器

中国成功研制出一款星链干扰器

跟着老李看世界
2026-02-03 00:02:33
警方通报夫妻网购娃娃菜食用中毒事件:2人涉嫌敲诈勒索罪已被采取刑事强制措施

警方通报夫妻网购娃娃菜食用中毒事件:2人涉嫌敲诈勒索罪已被采取刑事强制措施

界面新闻
2026-02-03 22:38:45
一斤烟丝能卷500支烟,不少网友图省钱跑网上购买违规烟丝

一斤烟丝能卷500支烟,不少网友图省钱跑网上购买违规烟丝

映射生活的身影
2026-02-03 21:27:43
再不来上海了!台湾男歌手上厕所外套被偷,发牢骚:美国很难遇到

再不来上海了!台湾男歌手上厕所外套被偷,发牢骚:美国很难遇到

削桐作琴
2026-02-03 18:17:26
孙宇晨与谷爱凌的大瓜:自称以“咖位不同”被分手前女友再爆猛料

孙宇晨与谷爱凌的大瓜:自称以“咖位不同”被分手前女友再爆猛料

穿透
2026-02-03 21:45:13
韩媒首度还原大S死亡真相,揭开致命原因!让现场明星嘉宾很惊讶

韩媒首度还原大S死亡真相,揭开致命原因!让现场明星嘉宾很惊讶

娱乐团长
2026-02-03 15:15:49
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
成都个别领导的风险,比刘虎的要大得多

成都个别领导的风险,比刘虎的要大得多

不主流讲话
2026-02-03 15:18:01
2026-02-04 04:32:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4519文章数 37401关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

挪威王储妃给爱泼斯坦发暧昧邮件:你让我兴奋

头条要闻

挪威王储妃给爱泼斯坦发暧昧邮件:你让我兴奋

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

大S逝世一周年 S家没通知大S子女惹争议

财经要闻

中央一号文件:扎实推进乡村全面振兴

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

教育
时尚
数码
健康
军事航空

教育要闻

学霸到底怎么刷题的?

状态比10年前更好,她到底做对了什么?

数码要闻

机械师推出新款24寸显示器:1080P 144Hz IPS屏仅449元

耳石症分类型,症状大不同

军事要闻

特朗普:庞大兵力将很快抵达伊朗

无障碍浏览 进入关怀版