英伟达杀疯了!
“AI界春晚”英伟达GTC大会同一天,英伟达发布了一款生物学模型CodonFM。
作为当前最先进的RNA基础模型,不仅填补了基因“同义突变”的空白,还可用于mRNA医疗研发、基因疗法和个性化医学。
![]()
英伟达称,人类已经迈向可编程生物学。
目前CodonFM已开源发布,供研究和商业用途免费使用,以促进开放合作和创新。
一个转录组尺度的基础模型是AI和分子生物学之间的桥梁,意味着我们将迈向精确的、数据驱动的编辑和治疗设计。
不止如此,英伟达还宣布了一项宏伟的计划:英伟达虚拟细胞( NVIDIA Virtual Cell ),并和陈-扎克伯格倡议(CZI)达成深度合作。
CodonFM将成为其中的基础模型,最终有望改变整个AI生物学的格局。
![]()
最新RNA基础大模型
众所周知,DNA和RNA都是重要的遗传物质。
密码子(codon),即信使RNA链上决定一个氨基酸的相邻的三个碱基,用来指示合成蛋白质时应该加入哪一种氨基酸,最终合成承担一切生命活动的蛋白质。
长期以来,密码子的选择对基因表达具有重要影响。
例如,在大肠杆菌中表达人类蛋白质并进行纯化时,通常需要调整编码序列,使其与细菌的密码子偏好相匹配,从而实现高效翻译。
![]()
图:氨基酸密码子表
然而,密码子优化的意义远不止于此。
尽管人类基因组整体上呈现特定的密码子使用偏好,但不同基因或蛋白质之间存在显著差异,而这些差异往往与蛋白质功能及组织特异性表达相关。
更重要的是,近年来由密码子改变引发的“同义突变”,被认为是疾病的隐形推手。
于是,英伟达联合Arc研究所合作开发了CodonFM,旨在揭示密码子选择背后的复杂语法。
该研究团队在来自超过20000个物种的超过1.3亿个蛋白质编码序列上训练了两种互补的模型架构,处理了数千亿个标记。
CodonFM包含两个互补的模型架构——Encodon和Decodon。
Encodon是一个双向编码器模型,采用BERT架构,能够一次性处理整个序列,捕捉基因内上游和下游的依赖关系,擅长预测突变的功能效应等需要理解整个序列上下文的任务。
Decodon则是一个自回归解码器模型,采用GPT架构,根据前面的序列预测下一个密码子,主要用于生成新的序列,如为治疗优化密码子使用。
Encodon已经发布,Decodon则预计于今年晚些时候发布。
这两个模型在来自超过20000个物种的超过1.3亿个蛋白质编码序列上进行训练,处理了数千亿个标记。随着模型参数规模的增大,从最初的7000万到9000万参数,到后来的6亿、10亿参数。
最终,模型在区分同义密码子等任务上的性能显著提升,且在多个基准测试中超越了现有方法,实现了多倍的性能提升。
CodonFM还符合Scaling Law(缩放定律)。随着模型和数据集大小的增加,模型在同义和错义变体分类、mRNA 翻译效率和蛋白质丰度预测等用例中的准确性都会提高。
![]()
在生物任务测试中领先
因此,CodonFM 不仅适用于多种分子生物学和临床研究场景,还能在零样本(zero-shot)任务中展现广泛的适用性。
突变效应大小预测
由于CodonFM能够编码序列本身进行建模,捕获密码子上下文、冗余和调控模式,而无需明确依赖蛋白质结构。
因此,模型能够在检测致病性错义突变方面实现强大的性能。
![]()
图:破译发育障碍(DDD) 病例与对照组中从头错义变异的分类
更重要的是,CodonFM 将这种能力扩展到解释同义变体的更困难的问题。同义突变使蛋白质序列保持不变,并且历史上一直没有预测模型。
Encodon 能够精准检测密码子使用偏好与翻译水平效应的细微差异,并成功区分了ClinVar 数据库中致病性与良性的同义变异,展现了其在解析沉默突变(同义突变)方面的独特优势。
尽管理论上 DNA 模型可以学习这种语法,但实际上只有密码子级模型才能捕获不同位置不同同义密码子选择的值。
![]()
图:ClinVar致病与良性数据集中同义变异的分类
mRNA疗法设计
近年来,mRNA疗法作为一种新兴的疗法迅速崛起,例如辉瑞的新冠疫苗就是mRNA生物制剂,巅峰时期年销售额达360亿美元。
然而,mRNA疗法面临一个关键难题:如何优化核酸序列。
即便是微小的肽段或蛋白质,也可能存在海量同义mRNA编码可能——每一种序列变体都会对表达效率、稳定性及免疫原性产生差异化影响。
而使用CodonFM优化密码子,可以在不改变蛋白质序列的情况下,提高蛋白质的表达和稳定性,从而增强mRNA疫苗和治疗的效果。
例如,优化后的mRNA在细胞中的停留时间更长,翻译效率更高,使得蛋白质产物的存在时间更长,进而提升疫苗的性能。
![]()
图:密码子级翻译效率建模
![]()
老黄,盯上生命科学了
总结而言,CodonFM已经成功学习了RNA密码子的规则,并将其中的遗传信息转变为一种可编程语言。
英伟达称,如今人类已经迈向可编程生物学。
而CodonFM仅仅是英伟达一系列生物学模型的第一步,它还有个宏伟的计划——打造虚拟细胞(AIVC)。
模型发布同一天,陈—扎克伯格倡议(CZI)宣布和英伟达扩大合作伙伴关系,旨在通过推进虚拟细胞模型彻底改变生命科学,这是一项旨在重新定义生物研究界限的开创性举措。
合作的核心是是将生物数据处理扩展到 PB 级数据,涵盖数十亿个细胞观察,从而实现下一代虚拟模型开发,从而解锁有关人类生物学的新见解。
虚拟细胞(AIVC),已成为AI生物学的下一个圣杯。
简单来说,AI 虚拟细胞是利用人工智能技术结合多模态组学数据,构建的数字细胞,它能模拟、预测细胞行为和反映。
虚拟细胞的价值不仅在于技术突破,更在于其可能重构生物医学研究范式。
当前,大多数生命活动都是在细胞层面进行的,如果AI能精准模拟分子、细胞和组织的作用,则具有巨大的应用前景。包括靶点发现、患者分层、药物筛选等。
已经有多家顶尖学术团体,以及公司正在押注这个极为有前景的领域。
![]()
图:虚拟细胞重要数据集与模型
毫无疑问,市值已经快站上5亿美元的英伟达,将给该领域带来极大的推动力。
英伟达有顶级的计算能力、成熟的AI技术和开放的平台生态,正在将这一前景广阔但挑战巨大的研究领域,推向一个发展更快、开放度更高的新阶段。
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.