网易首页 > 网易号 > 正文 申请入驻

诺奖级Nature横空出世!攻克历史难题,植物科学领域迎来巅峰时刻!

0
分享至

植物产生复杂而有效的治疗分子,但从天然生产商或通过化学合成获取这些分子很困难,这限制了它们在临床上的使用。一个突出的例子是抗癌治疗性紫杉醇(以紫杉醇品牌出售),它来源于红豆杉树(红豆杉属)。确定完整的紫杉醇生物合成途径将使药物的异源生产成为可能,但尽管进行了半个世纪的研究,但这尚未实现,在 Taxus 的大型、富含酶的基因组中,我们怀疑紫杉醇通路很难使用常规 RNA 测序和共表达分析来解决。在这里,为了提高用于通路鉴定的转录分析的分辨率,我们开发了一种我们称之为单核多重扰动 (mpXsn) ×策略,以转录分析跨组织、细胞类型、发育阶段和激发条件的细胞状态。我们的数据表明,紫杉醇生物合成基因分离成不同的表达模块,这表明连续的亚途径。这些模块解析了 7 个新基因,允许在 Nicotiana benthamiana 叶片中从头 17 基因生物合成和分离 baccatin III(紫杉醇的工业前体),其水平与红豆杉针叶中的自然丰度相当。值得注意的是,我们发现核转运因子 2 (NTF2) 样蛋白 FoTO1 对于在第一次氧化过程中促进所需产物的形成至关重要,解决了紫杉醇途径重建中长期存在的瓶颈。与一种新的 β-苯丙氨酸-CoA 连接酶一起,这里发现的 8 个基因能够从 头生物合成 3'-N-去苯甲酰-2'-脱氧紫杉醇。更广泛地说,我们建立了一种可推广的方法,以有效地扩展共表达分析的能力,以匹配大型、未表征基因组的复杂性,从而促进高价值基因集的发现。

随着高通量生物技术的发展,已经开发了多种组学技术来表征不同但互补的生物信息,包括基因组学表观基因组学转录组学蛋白组学代谢组学等。

人工智能组学的研究到底有多热,以及为何要举办培训,下面的内容给出了答案。

近两年国内外顶尖课题组MIT、Harvard University、UPenn、清华大学、复旦大学、西湖大学等都在从事人工智能组学的研究,这一研究成果更是多次发表在

Nature、
Nature Biotechnology、
Nature Reviews Genetics
Nature Methods
Science Advances
Cancer Cell
等国际知名学术顶刊上,为我们发表顶刊鉴定了基础。

由于该项研究资料和学习平台较少,信息技术不公开,培训学习迫在眉睫,特此诚挚邀请您参加“机器学习与多组学”线上直播课,参会会员已达7000余名!发顶刊!快上车!

七大课程助力发顶刊

01

深度学习基因组学

02

机器学习代谢组学

03

机器学习微生物多组学联合分析

04

CRISPR-Cas9基因编辑技术

05

深度学习蛋白质设计

06

CADD计算机辅助药物设计

07

AIDD人工智能药物发现与设计顶刊复现

讲师介绍

机器学习代谢组学

主讲老师来自985高校神经科学博士,主要利用代谢组学、转录组学和分子生物学等技术研究神经内科慢性病的发病机制和生物标志物。擅长高效液相色谱-质谱联用(LC-MS)技术进行非靶向和靶向代谢组学从样本制备到数据分析的全流程研究,以及多组学大数据的生物信息学整合分析。5年内在J Clin Invest, EBioMedicine, Cell Death Dis, Cell Death Discov, Nanotoxicology等杂志发表SCI论文10篇。

机器学习微生物多组学

主讲老师Dr. Li,生物信息学博士,有十余年的测序数据分析经验。研究领域涉及机器学习,芯片数据分析,核酸及蛋白序列分析,宏基因组学,DNA,RNA,甲基化测序数据分析,单细胞测序数据分析,miRNA及靶基因分析,生存分析及预后模型构建等。具有丰富的培训经验,举办过线上线下培训50余场。培训内容涉及机器学习在生物医学中的应用,机器学习在微生物学中的应用,机器学习在蛋白组学中的应用,单细胞多组学数据挖掘,WGCNA共表达网络构建,ceRNA网络构建,R语言基础等。发表SCI论文30余篇,其中一作及并列一作15篇,h指数20。

深度学习基因组学

主讲老师来自荷兰在读博士陈老师授课。在国内外学术刊物发表论文数篇,包括Nature Communications, Cell Regeneration等知名期刊,研究方向主要为染色质三维结构,生物信息学,发育生物学和遗传学等。利用多组学数据,通过深度学习算法进行数据分析和挖掘,包括ChIP-seq,ATAC-seq,RNA-seq,CNV等,解决并回答领域内多个基础的生物学机制。

CRISPR-Cas9基因编辑技术

主讲老师来自中国农业科学院,有十余年基因编辑研究经验,熟悉基因编辑在各个领域应用,在基因编辑系统的开发与优化深耕多年,已发表数十篇SCI,有丰富的教学经验!

深度学习蛋白质设计

主讲老师来自北京大学,从事AI for science方向研究,目前的主要研究方向是人工智能辅助的蛋白质等分子体系的采样,在分子模拟上由丰富的实战经验。已在JCIM、communications physics等国际期刊上发表数篇文章,其设计的蛋白质采样算法UFConf的发表文章,被选为JCIM杂志的当期封面文章以及编辑推荐,具有广泛的影响力。

AIDD人工智能药物发现顶刊复现

主讲老师来自天津大学,有十余年的计算机算法研究和程序设计经验。研究方向涉及生物信息学,深度学习,药物合成路径设计,药物不良反应等。发明专利5项,参与国家重点科研项目4项,发表SCI高水平论文10篇,包括BMC Bioinformatics, Journal of Biomedical Informatics, International Journal of Molecular Sciences等知名期刊

CADD计算机辅助药物设计

主讲老师来自协和生物所,老师主要擅长深度学习、机器学习、药物虚拟筛选、计算机辅助药物设计、人工智能药物发现、分子对接、分子动力学等方面的研究,在CNS发表文章数篇,有丰富的培训经验,已经培训学员达5000余人

1

深度学习基因组学课表内容

可滑动查看

第一天

理论部分

深度学习算法介绍

1.有监督学习的神经网络算法

1.1全连接深度神经网络DNN在基因组学中的应用举例

1.2卷积神经网络CNN在基因组学中的应用举例

1.3循环神经网络RNN在基因组学中的应用举例

1.4图卷积神经网络GCN在基因组学中的应用举例

2.无监督的神经网络算法

2.1自动编码器AE在基因组学中的应用举例

2.2生成对抗网络GAN在基因组学中的应用举例

实操内容

1.Linux操作系统

1.1常用的Linux命令

1.2 Vim编辑器

1.3基因组数据文件管理, 修改文件权限

1.4查看探索基因组区域

2.Python语言基础

2.1.Python包安装和环境搭建

2.2.常见的数据结构和数据类型

第二天

理论部分

基因组学基础

1.基因组数据库

2.表观基因组

3.转录基因组

4.蛋白质组

5.功能基因组

实操内容

基因组常用深度学习框架

1.安装并介绍深度学习工具包tensorflow, keras,pytorch

2.在工具包中识别深度学习模型要素

2.1.数据表示

2.2.张量运算

2.3.神经网络中的“层”

2.4.由层构成的模型

2.5.损失函数与优化器

2.6.数据集分割

2.7.过拟合与欠拟合

3.基因组数据处理

3.1安装并使用keras_dna处理各种基因序列数据如BED、 GFF、GTF、BIGWIG、BEDGRAPH、WIG等

3.2使用keras_dna设计深度学习模型

3.3使用keras_dna分割训练集、测试集

3.4使用keras_dna选取特定染色体的基因序列等

4.深度神经网络DNN在识别基序特征中应用

4.1实现单层单过滤器DNN识别基序

4.2实现多层单过滤器DNN识别基序

4.3实现多层多过滤器DNN识别基序

第三天

理论部分

卷积神经网络CNN在基因调控预测中的应用

1.Chip-Seq中识别基序特征G4,如DeepG4

2.Chip-Seq中预测DNA甲基化,DeepSEA

3.Chip-Seq中预测转录调控因子结合,DeepSEA

4.DNase-seq中预测染色体亲和性,Basset

5.DNase-seq中预测基因表达eQTL,Enformer

实操内容

复现卷积神经网络CNN识别基序特征DeepG4、非编码基因突变DeepSEA,预测染色体亲和性Basset,基因表达eQTL

1.复现DeepG4从Chip-Seq中识别G4特征

2.安装selene_sdk,复现DeepSEA从Chip-Seq中预测DNA甲基化,非编码基因突变

3.复现Basset,从Chip-Seq中预测染色体亲和性

4.复现Enformer,从Chip-Seq中预测基因表达eQTL

第四天

理论部分

深度学习在识别拷贝数变异DeepCNV、调控因子DeepFactor上的应用

1.SNP微阵列中预测拷贝数变异CNV,DeepCNV

2.RNA-Seq中预测premiRNA,dnnMiRPre

3.从蛋白序列中预测调控因子蛋白质,DeepFactor

实操内容

1.复现DeepCNV利用SNP微阵列联合图像分析识别拷贝数变异

2.复现循环神经网络RNN工具 dnnMiRPre,从RNA-Seq中预测premiRNA

3.复现DeepFactor,从蛋白序列中识别转录调控因子蛋白质

第五天

理论部分

深度学习在识别及疾病表型及生物标志物上的应用

1.从基因表达数据中识别乳腺癌分型的深度学习工具DeepType

2.从高维多组学数据中识别疾病表型,XOmiVAE

3.基因序列及蛋白质相互作用网络中识别关键基因的深度学习工具DeepHE

实操内容

1.复现DeepType,从METABRIC乳腺癌数据中区分乳腺癌亚型

2.复现XOmiVAE,从TCGA多维数据库中识别乳腺癌亚型

3.复现DeepHE利用基因序列及蛋白质相互作用网络识别关键基因案例实操图片:

2

机器学习代谢组学课表内容

可滑动查看

第一天上午

A1 代谢物及代谢组学的发展与应用

(1) 代谢与生理过程;

(2) 代谢与疾病;

(3) 非靶向与靶向代谢组学;

(4) 空间代谢组学与质谱成像(MSI);

(5) 代谢组学与药物和生物标志物;

(6) 代谢流与机制研究。

A2 代谢通路及代谢数据库

(1) 几种经典代谢通路简介;

(2) 三大常见代谢物库:HMDB 、METLIN 和 KEGG;

(3) 代谢组学原始数据库:Metabolomics Workbench 和 Metabolights. A3 参考资料推荐

第一天下午

A4 代谢组学实验流程简介

A5 色谱 、质谱硬件与原理解析

(1) 色谱分析原理与构造;

(2) 色谱仪和色谱柱的选择;

(3) 色谱的流动相:梯度洗脱法;

(4) 离子源、质量分析器与质量检测器解析;

(5) 质谱分析原理及动画演示;

(6) 色谱质谱联用技术(LC-MS);

第二天上午

B1 代谢物样本处理与抽提

(1) 各种组织、血液和体液等样本的提取流程与注意事项;

(2) 代谢物抽提流程与注意事项;

(3) 样本及代谢物的运输与保存问题;

B2 LC-MS 数据质控与搜库

(1) LC-MS 实验过程中 QC 和 Blank 样本的设置方法;

(2) LC-MS 上机过程的数据质控监测和分析;

(3) 代谢组学上游分析原理——基于 Compound Discoverer 与 Xcms 软件;

(4) Xcms 软件数据转换、提峰、峰对齐与搜库;

第二天下午

B3 R 软件基础

(1) R 和 Rstudio 的安装;

(2) Rstudio 的界面配置;

(3) R 中的基础运算和统计计算;

(4) R 中的包:包,函数与参数的使用;

(5) R 语言语法,数据类型与数据结构;

(6) R 基础画图;

B4 R 语言画图利器——ggplot2 包

(1) ggplot2 简介

(2) ggplot2 的画图哲学;

(3) ggplot2 的配色系统;

(4) ggplot2 数据挖掘与作图实战;

第三天上午

机器学习

C1 有监督式机器学习在代谢组学数据处理中的应用

(1) 人工智能、机器学习、深度学习的关系;

(2) 回归算法:从线性回归、Logistic 回归与 Cox 回归讲起;

(3) PLS-DA 算法:PCA 降维后没有差异的数据还有救吗?

(4) VIP score 的意义及选择;

(5) 分类算法:决策树,随机森林和贝叶斯网络模型;

C2 一组代谢组学数据的分类算法实现的 R 演练

(1) 数据解读;

(2) 演练与操作;

第三天下午

C3 无监督式机器学习在代谢组学数据处理中的应用

(1) 大数据处理中的降维;

(2) PCA 分析作图;

(3) 三种常见的聚类分析:K-means、层次分析与 SOM

(4) 热图和 hcluster 图的 R 语言实现;

C4 一组代谢组学数据的降维与聚类分析的 R 演练

(1) 数据解析;

(2) 演练与操作;

第四天上午

D1 在线代谢组分析网页 Metaboanalyst 操作

(1) 用 R 将数据清洗成网页需要的格式;

(2) 独立组、配对组和多组的数据格式问题;

(3) Metaboanalyst 中的上游分析(原始数据峰提取、峰对齐与搜库)

(4) Metaboanalyst 的 pipeline 以及参数设置和注意事项;

(5) Metaboanalyst 的结果查看和导出;

(6) Metaboanalyst 的数据编辑;

(7) 全流程演练与操作。

(8) 代谢联合多组学分析网页操作。

第四天下午

D2 代谢组学数据清洗与 R 语言进阶

(1) 代谢组学中的 t、fold-change 和响应值;

(2) 数据清洗流程;

(3) R 语言 tidyverse;

(4) 数据预处理:数据过滤与数据标准化(样本的 Normalization 和代谢物的 Scaling);

(5) 代谢组学数据清洗演练;

第五天上午

E1 文献数据分析部分复现(1 篇)

(1) 文献深度解读;

(2) 实操:从原始数据下载到图片复现;

(3) 学员实操。

第五天下午

E2 机器学习与代谢组学顶刊解读(3 篇);

(1) Signal Transduction and Targeted Therapy 一篇有关饥饿对不同脑区代谢组学影响变

化的小鼠脑组织代谢图谱类的文献;(数据库型)

(2) Cell 一篇代谢组学孕妇全程血液代谢组学分析得出对孕周和孕产期预测的代谢标志物

的文献;(生物标志物型)

(3) Nature 一篇对胰腺癌患者肠道菌群的代谢组学分析找到可以提高化疗效果的代谢物的

文献。(机制研究型)

案例实操图片:

3

机器学习微生物多组学联合分析 课表内容

可滑动查看

第一天

微生物多组学简介

1.微生物学基本概念

2.微生物学常用分析介绍

3.代谢组学基本概念及检测方法

4.转录组学基本概念及检测方法

5.机器学习基本概念介绍

R语言简介及实操

1.R语言概述

2.R软件及R包安装

3.R语言语法及数据类型

4.条件语句

5.循环

6.函数

7.常用的机器学习和微生物多组学数据分析相关R包介绍

第二天

微生物多组学相关数据库介绍及数据检索

1.肠道微生物+代谢数据库

2.Curated Metagenomic Data

3.IBDMDB数据库

4.GEO数据库

微生物多组学应用案例分享

1.利用机器学习基于微生物组学+代谢组学数据预测样本类型

2.整合微生物组学数据和代谢组学数据鉴定疾病相关模块

3.肿瘤研究中微生物组学+宿主转录组学+免疫联合分析

4.基于微生物组学数据+转录组数组+代谢组数据纵向集成分析

第三天(实操)

零代码微生物多组学整合和网络可视化分析工具介绍和使用

1.数据上传(支持8种不同类型的数据,包括微生物,代谢,基因,蛋白等)

2.根据数据类型选择相应的数据库

3.构建网络

4.可视化

零代码微生物组-代谢组网络分析工具介绍和使用

1.构建菌群和代谢模型

2.使用代谢模型计算微生物对代谢物的贡献

3.计算群落水平的代谢潜能分值,使用回归模型评估潜能分值在不同样本中的差异

4.可视化特征微生物对特定代谢物的影响,并寻找关键微生物

零代码微生物组学代谢组学相关性分析工具介绍和使用

  1. 1.组学内相关性分析

  2. 2.组学间相关性分析

  3. 3.多组学整合分析

  4. 4.多组学网络分析

  5. 5.结果可视化

第四天(实操+复现)

利用机器学习基于微生物组学+代谢组学数据预测样本类型

1.α-diversity,β-diversity分析

2.饮食与代谢物的动态关联分析

3.微生物组差异与疾病特异性分析

4.多组学因子分析

5.菌群功能与代谢表型关联分析

6.整合微生物组学数据和代谢组学数据预测样本类型

整合微生物组学和代谢组学数据鉴定疾病相关模块

1.微生物组学和代谢组学数据整合

2.鉴定疾病相关的多组学模块

3.模块交集分析

4.利用机器学习基于模块预测疾病状态

5.重要模块分析

第五天(实操+复现)

肿瘤研究中微生物组学,宿主转录组学和免疫联合分析

1.微生物组学分析

2.转录组学分析,差异表达基因鉴定

3.通过CCA方法对微生物组学数据和宿主转录组学数据进行关联分析

4.微生物免疫关联分析

基于微生物组学数据,转录组数组和代谢组数据纵向集成分析

1.肠道微生物组成分析

2.微生物组和代谢组联合分析

3.代谢组学和转录组学进行整合分析

4.微生物组-宿主互作分析

课程目标

1.了解微生物多组学相关概念

2.了解机器学习相关概念和常用的机器学习模型

3.了解R语言

4.掌握常用的微生物多组学数据分析以及机器学习相关R包的使用

5.掌握微生物组学/代谢组学/宿主转录组学联合分析思路和方法

6.复现SCI文章

案例实操图片:

4

CRISPR-Cas9基因编辑技术 课表内容

可滑动查看

第一天

一.基因编辑工具介绍

1.正本清源:基因编辑和转基因

a)解析基因编辑与转基因的本质区别,讨论两种技术的监管差异

2.基因编辑工具先驱-ZFNs和TALENs

a)早期基因编辑工具的设计原理、优缺点及历史贡献

3.CRISPR系统家族介绍

a)从细菌免疫系统到基因编辑工具的演变,各类型Cas蛋白的分类

4.CRISPR-Cas9的工作原理

a)sgRNA与DNA结合机制、PAM识别、双链断裂修复途径

5.CRISPR-Cas9介导基因敲除与敲入

a)通过NHEJ和HDR两种修复途径实现的不同编辑效果

6.CRISPR-Cas12、13的工作原理

a)RNA靶向编辑与诊断应用潜力

7.新型CRISPR系统

a)CasΦ、小型Cas蛋白CasMINI等

b)高保真Cas9变体SpCas9-HF、eSpCas9等

8.基因克隆相关技术简介

a)质粒设计、PCR、限制性酶切、连接等基础技术

9.Snapgene软件使用实操

a)质粒图谱设计、引物设计、虚拟克隆与测序分析

第二天

1.CRISPR-Cas9系统敲除载体构建实操

a)sgRNA设计相关注意事项

i. PAM位点选择、脱靶预测、GC含量考量、二级结构避免

b)辅助工具推荐,CRISPick、CHOPCHOP、基于深度学习的sgRNA预测工具等

c)常规的构建方案

i. 从oligo合成到完整载体的详细流程,常见问题解决

d)测序原理简介

i. Sanger测序与高通量测序技术原理,应用选择

e)测序数据分析

2.多基因编辑原理

a)同时编辑多个基因的策略选择,提高编辑效率的方法

b)多重靶点设计与互相干扰避免策略

3.多基因编辑载体构建实操

a)多sgRNA串联策略

b)多启动子设计策略与表达平衡考量

4.CRISPRa/CRISPRi(基因激活与基因抑制)

a)dCas9-PVPR系统介绍,工作原理详解

b)dCas9-VP64/GI/SAM基因激活系统介绍

c)基因编辑招募系统介绍(Suntag/Moontag)

5.CRISPR系统的‘另类’应用

第三天

1.CBE系统的原理及其应用

a)CBE系统进化过程总结,从BE1到最新CBE系统的演进历程与性能提升

b)基因组CBE编辑(植物育种/基因功能研究/临床治疗)

c)细胞器CBE编辑工具介绍,线粒体/叶绿体编辑特殊挑战与解决方案

d)CBE系统的脱靶效应,RNA脱靶与DNA脱靶检测与避免策略

e)新型CBE系统,各种改进版本对比与选择指南

2.ABE系统的原理及其应用

a)PACE和PANCE人工定向蛋白进化系统介绍及其他常规的蛋白进化技术

b)大肠杆菌正交进化系统

c)ABE系统的进化过程总结,ABE1.x到ABE8.x性能参数对比

d)ABE系统的‘另类’应用,ABE系统如何实现C编辑、剪接调控等非常规功能

3.双碱基编辑系统

a)SWISS/STEME/A&C-BEmax/SPACE/ACBE,各种双碱基编辑系统的设计原理与适用场景

b)双碱基编辑系统改造总结

4.其他类型的碱基编辑系统

a)糖基化酶介导碱基编辑,新型编辑机制与应用潜力

b)CGBE、AYBE、gGBE、TSBE

第四天

1.报告系统

a)细胞实验结合流式分析

b)植物稳转的抗除草剂、显色等报告系统

2.原生质体制备与应用实操

3.细胞与基因编辑工具优化实操

4.RNA编辑系统

5.PE系统的原理

a)Prime Editing工作机制:逆转录、链置换、修复

b)编辑效率影响因素详解:各参数对编辑效率的影响比较

c)双pegRNA的原理及其应用(基因组大片段插入)

d)基因组大片段删除

第五天

1.PE系统的优化案例

a)各领域PE优化成功案例分析:植物、人类细胞

b)特定应用场景的系统改造策略

2.PE系统的构建实操

a)引物设计工具的应用

b)载体构建实操,从基础载体到成熟系统的实验流程

3.慢病毒包装与递送

4.其他递送系统

a)纳米颗粒递送:脂质体、聚合物等

b)物理方法:电穿孔、显微注射、生物弹道技术

5.伦理与安全 案例实操图片:

5

深度学习蛋白质设计 课表内容

可滑动查看

第一天

蛋白质设计概述与工具准备

1. 为什么要做蛋白质设计?

蛋白质广阔的可能结构空间

2.蛋白质设计方法分类

目前最佳解决方案:

蛋白质结构预测:Alphafold2,Rosettafold2

固定结构序列预测:ProteinMPNN

从头设计:RFDiffusion+ProteinMPNN+Alphafold2迭代

3.Vscode的使用,ssh连接超算集群(实操)

VScode的安装

Remote ssh插件安装

~/.ssh/config中配置username, ip信息

4.Linux的配置,创建python环境(实操)

Conda create -n env_name python=3.9

5.超算作业提交(实操)

Slurm作业管理系统的教学,sbatch, salloc,scancel的使用

6.生成模型概览,特别讲Diffusion model理论

第二天

深度学习蛋白质结构预测方法

1.基于深度学习的模型--Alphafold2、Rosettafold

AF2成功的原因:

a.利用MSA信息

b.Transformer提取行纵MSA的信息

c.Recycling

d.自蒸馏数据集(pLDDT的引入)

2. AF2 本地运行(实操)

2.1基于Alphafold2的复现工作—Openfold、Unifold

3.Alphafold2上机实操

3.1MSA由mmseqs2 api生成,不需要下载结构和序列的数据集(需要3TB的空间)

4.基于语言模型的模型—ESMfold(实操)

4.1ESMfold的逻辑:用Masked LM替代掉AF2中的MSA模块

4.2ESMfold安装:(确保nvcc安装)

5.蛋白质多链结构预测—Alphafold multimer

6.蛋白-核酸复合物预测—RosetaffoldNA(实操)

Add nucleic acid representation

7.蛋白-核酸-小分子复合物预测—Rosetaffold-all atom, Alphafold3

第三天

深度学习蛋白质多构象采样方法与模型

蛋白质多构象预测(模拟)

1. 基于传统物理能量的方法—分子动力学MD

2. 基于MSA操纵的方法—MSA subsampling、AF cluster(实操)

MSA subsampling方法子采样AF2的MSA输入

MSA subsampling方法

2.1环境配置与AF2一样

2.2AF_cluster方法

2.3环境配置与AF2一样运行

2.4生成MSA

2.5模型预测

3.基于生成模型的方法—Alphaflow、UFConf、DiGAlphaflow uses flow matching(实操)

3.1Alphaflow方法

3.2python环境配置运行

3.3input_csv代表蛋白的序列信息

3.4msa_dir代表MSA的路径

3.5weights代表使用的模型

3.6.samples代表采样数目

4.UFConf使用Diffusion model(实操)

第四天

深度学习蛋白质数据集挖掘工具与蛋白质口袋搜索工具

1.蛋白质数据集挖掘工具

1.1序列比对和聚类工具

1.2BLAST速度慢

2.序列快速比对工具MMseqs2

2.1.对角线上的k-mer短序列匹配

22.table查找对应target序列上k-mer出现的位置

2.3.target序列和query序列的匹配

3.结构比对和聚类工具

3.1TM-align

4.结构快速比对工具Foldseek

41Foldseek团队与mmseqs系列对比

5.Foldseek上机实操

6、深度学习蛋白质口袋搜索工具

6.1.蛋白质口袋搜索

6.2Alpha sphere

7.基于结构的蛋白质口袋搜索工具--Fpocket、CavityPlus(实操)

8.基于轨迹(多构象)的蛋白质口袋搜索—Mdpocket(实操)

9.基于深度学习的蛋白质小分子结合位点预测工具—Diffdock

Diffdock上机实操

第五天

深度学习在蛋白质设计中的应用

1.基于深度学习的蛋白质设计概览

2.结构生成模型--RFDiffusion

3.RFDiffusion是一个conditional的结构生成模型(实操)

3.3.RFDiffusion:基于RosettaFold

3.4.RFDiffusion-All-Atom:基于RosettaFold-All-Atom

3.5.RFDiffusion上机实操

3.6.RFDiffusion设计骨架结构

4.逆折叠模型--ProteinMPNN(实操)

4.1inverse folding模型

4.2ProteinMPNN逆折叠设计序列上机实操

5.利用AF2提高蛋白质设计的成功率(实操)

5.1Alphafold2折叠设计序列

5.2筛选选Alphafold2中pLDDT较高的序列

5.3预测结构作迭代

6.Binder design设计流程

6.1RFDiffusion设计binder

6.2ProteinMPNN-FastRelax Binder Design设计

6.3AF2 complex prediction设计

7.结构序列生成模型--ProteinGenerator

7.1ProteinGenerator是结构和序列的生成

第六天

基于深度学习语言模型的蛋白质设计

1.深度学习酶设计(实操)

11.酶设计基本原理

1.2.酶学性质预测

1.3.RFDiffusionAA模型

1.4RFDiffusionAA与RFDiffusion对比

2.基于语言模型的蛋白质设计

2.1Progen模型(实操)

2.2Progen的训练

2.3conditional tag下的语言模型训练

3.ESM2、ESM3(实操)

3.1多模态ESM3语言模型

3.2序列、结构和功能三个模块的训练

第七天

深度学习辅助酶设计

1.基础知识讲解

酶的过渡态理论,theozyme,fitness landscape,epistasis

2.从Frances H. Arnold(2018年因在酶的定向进化领域的贡献获得诺贝尔化学奖)的工作看酶的定向进化方法的发展

2.1 传统定向进化实验流程

2.2 MLDE(Mechine Learning Directed Evolution), 学习序列与酶性能之间的映射关系,推荐新的突变组合(PNAS文章)

2.3 ftMLDE(focused training MLDE),主动学习流程,构建informative的训练数据(Cell Systems文章)

3.酶的从头设计

3.1 从头设计Diels-Alder催化酶

a)基于Rosetta的Inside-out策略(Science文章)

b)通过Foldit蛋白质折叠游戏改善结构问题(Nat. Biotechnol.文章);

c)Foldit蛋白质折叠游戏的实践*

3.2 从头设计荧光素酶,Family-wide hallucination,基于该酶家族的结构幻化出新的结构(Nature文章)

3.3 RFdiffusion+PLACER从头设计丝氨酸水解酶(Science文章)

4.利用预测结构的相似性,挖掘序列的新酶功能(复现高彩霞老师的cell文章)*

4.1 InterPro数据库中下载数据

4.2 TM-score计算结构距离

4.3 UPGMA结构聚类,画出进化树

4.4 挑选序列案例实操图片:

6

CADD计算机辅助药物设计 课表内容

可滑动查看

第一天上午

背景与理论知识以及工具准备

1. PDB数据库的介绍和使用

1.1 数据库简介

1.2 靶点蛋白的结构查询与选取

1.3 靶点蛋白的结构序列下载

1.5 批量下载蛋白晶体结构

2.Pymol的介绍与使用

2.1软件基本操作及基本知识介绍

2.2蛋白质-配体相互作用图解

2.3蛋白-配体小分子表面图、静电势表示

2.4蛋白-配体结构叠加与比对

2.5绘制相互作用力

3.notepad的介绍和使用

3.1优势及主要功能介绍

3.2界面和基本操作介绍

3.3插件安装使用

下午

一般的蛋白-配体分子对接讲解

1.对接的相关理论介绍

1.1分子对接的概念及基本原理

1.2分子对接的基本方法

1.3分子对接的常用软件

1.4分子对接的一般流程

2.常规的蛋白-配体对接

2.1收集受体与配体分子

2.2复合体预构象的处理

2.3准备受体、配体分子

2.4蛋白-配体对接

2.5对接结果的分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例

第二天

虚拟筛选

1.小分子数据库的介绍与下载

2.相关程序的介绍

2.1 openbabel的介绍和使用

2.2 chemdraw的介绍与使用

3.虚拟筛选的前处理

4.虚拟筛选的流程及实战演示

案例:筛选新冠病毒主蛋白酶抑制剂

5.结果分析与作图

6.药物ADME预测

6.1ADME概念介绍

6.2预测相关网站及软件介绍

6.3预测结果的分析

第三天

拓展对接的使用方法

1.蛋白-蛋白对接

1.1蛋白-蛋白对接的应用场景

1.2相关程序的介绍

1.3目标蛋白的收集以及预处理

1.4使用算例进行运算

1.5关键残基的预设

1.6结果的获取与文件类型

1.7结果的分析

以目前火热的靶点PD-1/PD-L1等为例。

2.涉及金属酶蛋白的对接

2.1金属酶蛋白-配体的背景介绍

2.2蛋白与配体分子的收集与预处理

2.3金属离子的处理

2.4金属辅酶蛋白-配体的对接

2.5结果分析

以人类法尼基转移酶及其抑制剂为例

3.蛋白-多糖分子对接

3.1蛋白-多糖相互作用

3.2对接处理的要点

3.3蛋白-多糖分子对接的流程

3.4蛋白-多糖分子对接

3.5相关结果分析

以α-糖苷转移酶和多糖分子对接为例

4.核酸-小分子对接

4.1核酸-小分子的应用现状

4.2相关的程序介绍

4.3核酸-小分子的结合种类

4.4核酸-小分子对接

4.5相关结果的分析

以人端粒g -四链和配体分子对接为例。

操作流程介绍及实战演示

第四天

拓展对接的使用方法

1.柔性对接

1.1柔性对接的使用场景介绍

1.2柔性对接的优势

1.3蛋白-配体的柔性对接

重点:柔性残基的设置方法

1.4相关结果的分析

以周期蛋白依赖性激酶2(CDK2)与配体1CK为例

2.共价对接

2.1两种共价对接方法的介绍

2.1.1柔性侧链法

2.1.2两点吸引子法

2.2蛋白和配体的收集以及预处理

2.3共价药物分子与靶蛋白的共价对接

2.4结果的对比

以目前火热的新冠共价药物为例。

3.蛋白-水合对接

3.1水合作用在蛋白-配体相互作用中的意义及方法介绍

3.2蛋白和配体的收集以及预处理

3.3对接相关参数的准备

重点:水分子的加入和处理

3.4蛋白-水分子-配体对接

3.5结果分析

以乙酰胆碱结合蛋白(AChBP)与尼古丁复合物为例

第五天

分子动力学模拟(linux与gromacs使用安装)

1. linux系统的介绍和简单使用

1.1 linux常用命令行

1.2 linux上的常用程序安装

1.3体验:如何在linux上进行虚拟筛选

2.分子动力学的理论介绍

2.1分子动力学模拟的原理

2.2分子动力学模拟的方法及相关程序

2.3相关力场的介绍

3.gromacs使用及介绍

重点:主要命令及参数的介绍

4.origin介绍及使用

第六天

溶剂化分子动力学模拟的执行

1.一般的溶剂化蛋白的处理流程

2.蛋白晶体的准备

3.结构的能量最小化

4.对体系的预平衡

5.无限制的分子动力学模拟

6.分子动力学结果展示与解读

以水中的溶菌酶为例

第七天

蛋白-配体分子动力学模拟的执行

1.蛋白-配体在分子动力学模拟的处理流程

2.蛋白晶体的准备

3.蛋白-配体模拟初始构象的准备

4.配体分子力场拓扑文件的准备

4.1高斯的简要介绍

4.2 ambertool的简要介绍

4.3生成小分子的力场参数文件

5.对复合物体系温度和压力分别限制的预平衡

6.无限制的分子动力学模拟

7.分子动力学结果展示与解读

8.轨迹后处理及分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例案例实操图片:

7

AIDD人工智能药物发现顶刊复现 课表内容

可滑动查看

第一天环境搭建与深度学习基本知识讲解

1.AIDD概述:从CADD到AIDD

2.软件安装与环境搭建

(1)anaconda

(2)vscode

(3)环境变量的配置

(4)切换pip和conda镜像源

(5)虚拟环境的创建

3.RDKIT工具包的使用

(1)基于RDKit的分子读写

(2)基于RDKit的分子绘制

(3)基于RDKit的分子指纹与分子描述符

(4)基于RDKit的化合物相似性与子结构

4.药物综合数据库的获取方法

(1)基于requests的基本爬虫操作

(2)小分子数据库PubChem数据获取(pubchempy / requests)

(3)蛋白质数据库PDB、UniProt数据获取

5.深度学习辅助药物设计

(1)神经网络基本概念与sklearn工具包介绍

(2)图神经网络与消息传递机制基本知识

(3)Transformer模型基本知识:分词、位置编码、注意力机制、编码器、解码器、预训练-微调框架、huggingface 生态介绍

(4)模型的评估与验证:准确率、精确率、召回率、F1分数、ROC曲线、AUC计算,平均绝对误差、均方差、R2分数、可释方差分数,交叉验证等

第二天
顶刊复现专题1——分子与生化反应的表示学习与性质预测助力药物发现

培训背景:在人工智能辅助药物发现(AIDD)中,分子与生化反应的表示学习与性质预测是整个研究流程的基石。分子的结构决定其功能,如何将复杂的分子结构和生化反应过程有效地表示为计算模型能够理解的形式,是实现高效预测和优化的前提。通过构建合理的分子表示(如图神经网络、SMILES编码、指纹等),我们可以让AI模型捕捉关键的化学特征,进而用于预测分子的物理化学性质、生物活性、毒性等,为后续的虚拟筛选、分子生成与反应设计提供可靠基础。因此,本专题不仅奠定了AIDD中建模与预测能力的核心能力框架,也为整个药物发现过程中的智能决策打下了坚实基础。

培训内容1:

Nature Machine Intelligence|基于注意力的神经网络在化学反应空间映射中的应用《Mapping the space of chemical reactions using attention-based neural networks》

1.数据集

1.1.Pistachio数据集:包含260万化学反应,来自专利数据,涵盖792个反应类别。数据经过去重和有效性过滤(使用RDKit)。

1.2.USPTO 1k TPL数据集:基于USPTO专利数据,包含44.5万反应,通过原子映射和模板提取生成1,000个反应模板类别。

1.3.Schneider 50k数据集:公开数据集,包含5万反应,50个类别,用于与传统指纹方法对比。

2.模型。研究对比了两种Transformer架构:

2.1.BERT分类器:基于编码器的模型,通过掩码语言建模预训练后,在分类任务上微调,使用[CLS]标记的嵌入作为反应指纹(rxnfp)。

2.2.Seq2Seq模型:编码器-解码器结构,将分类任务分解为超类、类别和具体反应的层级预测。两者均采用简化版BERT(隐藏层256维),输入为未标注的SMILES序列,无需反应物-试剂区分或原子映射。

3.训练。模型训练分为两步:

3.1.预训练:BERT通过掩码SMILES令牌预测任务进行自监督学习,学习反应通用表示。

3.2.微调:在分类任务上优化模型,使用交叉熵损失,学习率2×10⁻⁵,序列长度512。评估采用混淆熵(CEN)和马修斯相关系数(MCC)以处理数据不平衡。

培训内容2:

TOP期刊|基于深度学习的生化反应产量预测《Prediction of chemical reaction yields using deep learning》

1.数据。研究使用了三类数据:

1.1.Buchwald-Hartwig HTE数据集:包含3955个Pd催化C-N偶联反应,涵盖15种卤化物、4种配体、3种碱和23种添加剂组合,产率通过统一实验测量,数据质量高。

1.2.Suzuki-Miyaura HTE数据集:包含5760个反应,涉及15对亲电/亲核试剂、12种配体、8种碱和4种溶剂的组合,产率分布均匀。

1.3.USPTO专利数据集:从公开专利中提取,包含不同规模(克级与亚克级)的反应产率,数据噪声大且分布不一致,需通过邻近反应产率平滑处理以提升模型表现。

2.模型。核心模型基于预训练的rxnfp(反应指纹)BERT架构,新增回归层构成Yield-BERT。输入为标准化反应SMILES,通过自注意力机制捕捉反应中心及关键试剂的上下文信息。模型无需手工特征(如DFT计算描述符),直接端到端预测产率。实验表明,其性能优于传统方法(如随机森林和分子指纹拼接),尤其在HTE数据上接近化学描述符的预测水平,且参数鲁棒性高(超参数调整影响小)。

3.训练。训练分为两步:

3.1.预训练:BERT通过掩码语言任务学习SMILES的通用表示。

3.2.微调:采用简单Transformers库和PyTorch框架,以MSE损失优化回归层,学习率(2×10⁻⁵)和dropout率(0.1–0.8)为主要调参对象。HTE数据采用随机/时间划分验证,USPTO数据通过邻近反应产率平滑缓解噪声影响。小样本实验(5%训练数据)显示模型能快速筛选高产反应,指导合成优化。

培训内容3:

TOP期刊|基于T5Chem模型的生化反应表示学习与性质预测: 《Unified Deep Learning Model for Multitask Reaction Predictions with Explanation》

1.数据来源和处理。通过自监督预训练与PubChem分子数据集进行训练,以实现对四种不同类型的化学反应预测任务的优异性能。模型处理包括反应类型分类、正向反应预测、单步逆合成和反应产率预测。

2.模型架构和原理T5Chem模型是基于自然语言处理中的“Text-to-Text Transfer Transformer”(T5)框架开发的统一深度学习模型,该模型通过适应T5框架来处理多种化学反应预测任务。T5Chem模型包含编码器-解码器结构,并根据任务类型引入了任务特定的提示和不同的输出层,如分子生成头、分类头和回归头,以处理序列到序列的任务、反应类型分类和产品产率预测。

3.训练过程和细节。

3.1.T5Chem模型首先在PubChem的97 million分子上进行自监督预训练,使用BERT类似的“masked language modeling”目标。

3.2.在预训练阶段,源序列中的tokens被随机掩蔽,模型的目标是预测被掩蔽的正确的tokens。

3.3.预训练完成后,模型在下游的监督任务中进行微调,使用不同的任务特定提示和输出层。

3.4.模型在测试阶段通过生成分子token by token的方式进行预测,直到生成“句子结束标记”或达到最大预测长度。

第三天顶刊复现专题2——蛋白质的表示学习与性质预测助力药物发现

培训背景在AIDD中,蛋白质是药物作用的主要靶标,其结构与功能的复杂性决定了药物设计的成败。蛋白质的表示学习与性质预测是理解分子-靶点相互作用、发现候选药物的重要环节。蛋白质,尤其是酶,作为药物的主要作用靶点,其功能、结构与动力学性质直接影响药物的设计与效果。本专题通过两篇前沿研究工作展开讲解:*《Enzyme function prediction using contrastive learning》展示了如何利用对比学习从蛋白质序列中提取高质量的功能表征,实现对酶功能的精确预测;《CatPred》*则提出了一个整合性深度学习框架,用于体外酶动力学参数(如Km、kcat等)的预测,这对于建立药效模型与优化先导化合物至关重要。这些方法显著提升了蛋白质建模的准确性与泛化能力,为AI驱动的靶点发现、机制理解及候选药物筛选提供了强有力的支持。

培训内容1:

Nature Communication|体外酶动力学参数深度学习的综合框架《CatPred: a comprehensive framework for deep learning in vitro enzyme kinetic parameters》

CatPred 提出了一种全面的深度学习框架,用于预测体外酶动力学参数(kcat、Km、Ki),以解决实验测定成本高、数据稀疏和泛化能力差的问题。该方法不仅提供了准确的预测,还引入了对预测不确定性的量化,支持对训练集外(out-of-distribution)酶序列的稳健预测。此外,作者还构建了新的标准化数据集(CatPred-DB),并对多种酶表示方法进行了系统比较。

1.数据:CatPred 使用的数据集来自 BRENDA 和 SABIO-RK 数据库,作者构建了 CatPred-DB,包括:23197 条 kcat,41174 条 Km和11929 条 Ki 数据,每条记录都包含酶的氨基酸序列、AlphaFold 或 ESMFold 预测的结构、底物的 SMILES 表达式。数据经过清洗和标准化处理,去除缺失值和重复值,并对参数取对数转换以符合正态分布。

2.模型:CatPred 采用模块化设计,酶和底物分别通过不同的神经网络模块进行表征学习,并采用 概率回归 输出(高斯分布形式的均值和方差),允许进行 不确定性估计(aleatoric + epistemic)。

3.训练

3.1.所有模型采用负对数似然损失函数(NLL)训练,以同时预测参数均值和不确定性。

3.2.使用训练-验证-测试三分法(80%-10%-10%),并设立“训练集外”的测试子集用于泛化能力评估。

3.3.为了评估不确定性,CatPred 使用 10个模型的集成,通过不同初始参数训练,以此量化 epistemic uncertainty。

3.4.模型训练时考虑了不同相似性(序列identity<99%、80%、60%、40%)的测试集,体现其鲁棒性。

培训内容2:

Science|基于对比学习的蛋白质分类属性预测Enzyme function prediction using contrastive learning》

1.数据来源和处理:CLEAN模型的训练基于UniProt数据库中的高质量数据,该数据库收录了约1.9亿个蛋白质序列。CLEAN模型以氨基酸序列作为输入,输出按可能性排序的酶功能列表(以EC编号为例)。为了验证CLEAN的准确性和鲁棒性,作者进行了广泛的in silico实验,并将CLEAN应用于内部收集的未表征的卤酶数据库(共36个)进行EC编号注释,随后通过案例研究进行体外实验验证。

2.模型架构和原理:CLEAN模型采用了对比学习框架,目标是学习一个酶的嵌入空间,其中欧几里得距离反映了功能相似性。嵌入是指蛋白质序列的数值表示,它由机器可读,同时保留了酶携带的重要特征和信息。在CLEAN的任务中,具有相同EC编号的氨基酸序列具有较小的欧几里得距离,而具有不同EC编号的序列则具有较大的距离。

3.训练过程和细节:

3.1.在训练过程中,CLEAN模型使用对比损失函数进行监督训练,通过优先选择与锚点(anchor)嵌入具有小欧几里得距离的负序列,以提高训练效率。

3.2.模型使用语言模型ESM1b获得的蛋白质表示作为前馈神经网络的输入,输出层产生细化的、功能感知的输入蛋白质嵌入。

3.3.预测时,通过计算查询序列与所有EC编号聚类中心之间的成对距离来预测输入蛋白质的EC编号。

3.4.CLEAN还开发了两种方法来从输出排名中预测自信的EC编号:一种是贪婪方法,另一种是基于P值的方法。

第四天顶刊复现专题3——基于深度学习的分子生成助力药物发现培训背景分子生成是化学、生物学和材料科学等领域的关键技术,对于新药开发、新材料设计和化学反应预测具有重要意义。传统的分子生成方法依赖于专家知识和试错实验,耗时且成本高昂。随着人工智能技术的发展,特别是自然语言处理和扩散模型在分子生成中的应用,我们现在能够利用计算模型来加速这一过程。本课程将介绍从NLP到扩散模型的设计模式,这些模型能够理解和生成分子结构,从而提高分子设计的效率和准确性。通过本课程的学习,参与者将能够掌握分子生成的最新技术和方法,以及如何将这些技术应用于实际问题。培训内容1:

Nature Communication基于端到端的图生成框架的分子生成:《Retrosynthesis prediction using an end-to-end graph generative architecture for molecular graph editing》

1.数据来源和处理:Graph2Edits模型使用了公开可用的基准数据集USPTO-50k,包含50016个反应,这些反应被正确地原子映射并分类为10种不同的反应类型。数据集被分为40k、5k、5k的反应用于训练、验证和测试集。

2.模型架构和原理:Graph2Edits模型是一个端到端的图生成架构,基于图神经网络(GNN)预测产品图的编辑序列,并根据预测的编辑序列顺序生成中间体和最终反应物。该模型将半模板方法的两阶段过程(识别反应中心和完成合成子)合并为一锅学习,提高了在复杂反应中的适用性,并使预测结果更易于解释。模型的核心是图编码器和自回归模型,用于生成编辑序列,并应用这些编辑来推断中间体和反应物。

3.训练过程和细节:

3.1.Graph2Edits模型使用有向消息传递神经网络(D-MPNN)作为图编码器,以获取原子表示和全局图特征,并预测原子/键编辑和终止符号。

3.2.模型训练使用教师强制策略,即使用真实的编辑序列作为模型输入。在每个编辑步骤中,模型会计算所有可能的编辑的概率,并选择最高分的k个编辑,将这些编辑应用于输入图以获得k个中间体。

3.3.在生成过程中,如果达到最大步骤数或图表示指示终止,则生成分支将停止。

3.4.最终,根据可能性对前k个编辑序列和图进行排名,收集为最终预测结果。

培训内容2

Nature Computational Science|基于等变扩散模型的分子生成网络《Structure-based drug design with equivariant diffusion models》

1.简单介绍。这篇文献提出了一种基于结构的药物设计方法(SBDD),利用SE(3)-等变扩散模型(DiffSBDD)生成与蛋白质结合口条件匹配的新颖小分子配体。该方法通过将SBDD问题建模为三维条件生成任务,能够一次性生成所有原子位置,克服了传统自回归方法因顺序生成而丢失全局上下文的局限性。DiffSBDD不仅支持从头分子设计,还能通过属性优化、负向设计和分子局部修饰(inpainting)等多种任务灵活应用。

2.数据总结。该研究使用了CrossDocked和Binding MOAD两个数据集进行训练和评估。

2.1.CrossDocked数据集包含40,344个训练蛋白-配体对和130个测试对,验证集规模为246个,确保不同集合中的蛋白质来自不同的酶分类主类以避免过拟合。

2.2.Binding MOAD数据集经过筛选后用于测试,分析限于所有方法均能生成样本的78个CrossDocked和119个Binding MOAD目标。此外,数据集处理涉及移除损坏条目,并通过Zenodo公开提供处理后的数据和采样分子,确保研究可重复性。

3.模型总结。DiffSBDD是一个SE(3)-等变扩散模型,以蛋白质结合口为条件生成三维分子结构,采用3D图表示(原子坐标和类型),避免了传统方法中从密度图回推分子结构的复杂后处理。模型设计尊重三维空间的旋转和平


第五天顶刊复现专题4: 结合分子动力学的蛋白质-配体复合物相互作用动态预测

培训背景:蛋白质-配体相互作用的预测是现代药物发现和生物工程领域的核心任务之一,其重要性不言而喻。在药物开发过程中,准确预测蛋白质与小分子配体的结合位点、三维结构以及亲和力,不仅能够揭示分子间相互作用的机制,还能显著加速候选药物的筛选与优化,降低研发成本和时间。传统实验方法如X射线晶体学和核磁共振虽然精确,但耗时长、成本高,且难以应对大规模筛选需求。而随着深度学习和人工智能技术的快速发展,计算方法在蛋白质-配体预测中展现出巨大潜力。

研究内容1:

Nature Communication|交互作用感知的蛋白质-配体对接和亲和力预测模型《Interformer: an interaction-aware model for protein-ligand docking and affinity prediction》

1.简要介绍:本研究提出了一种名为Interformer的基于Graph-Transformer架构的统一模型,用于蛋白-配体对接和亲和力预测。针对现有深度学习模型忽略蛋白与配体原子间非共价相互作用建模的不足,Interformer引入了交互感知混合密度网络(MDN)来明确捕捉氢键和疏水相互作用,并结合负采样策略和伪Huber损失函数,通过对比学习优化相互作用分布,提升对接姿势的准确性和亲和力预测的鲁棒性。

2.数据集:研究使用了PDBBind时间分割测试集(333个样本)评估对接准确性,Posebusters基准测试验证物理合理性,以及内部真实世界数据集测试泛化能力。训练数据来源于PDBBind晶体结构数据库。

3.模型:Interformer基于Graph-Transformer架构,包括:(1) 图表示模块,将原子作为节点、邻近关系作为边;(2) 掩码自注意力(MSA)机制,通过Intra-Blocks和Inter-Blocks分别捕捉配体/蛋白内部及两者间的相互作用;(3) 交互感知MDN,融合四种高斯分布模拟常规力、疏水作用和氢键;(4) 边缘输出层整合节点和边特征预测能量;(5) 姿势评分和亲和力模块基于虚拟节点预测正确姿势和实验亲和力值。

4.训练细节:训练分两阶段:首先基于晶体结构训练能量模型生成负样本,随后联合正负样本训练姿势评分和亲和力模型。采用负对数似然损失优化MDN,二元交叉熵损失优化姿势评分,伪Huber损失(σ=4)优化亲和力预测(单位IC50、Kd、KI,经负对数归一化)。蒙特卡洛采样生成候选姿势,

研究内容2:

Nature Communication|分子动力学驱动的蛋白质-配体复合物结构动态预测《DynamicBind: predicting ligand-specific protein-ligand complex structure with a deep equivariant generative model》

1.简单介绍:本研究提出了一种名为DynamicBind的深度学习方法,用于预测配体特异性的蛋白-配体复合物结构。传统分子对接方法通常将蛋白视为刚性或仅部分柔性,难以处理蛋白的大尺度构象变化,而分子动力学模拟虽然能捕捉动态构象,但计算成本高昂。DynamicBind通过等变几何扩散网络构建平滑的能量景观,高效模拟蛋白从无配体(apo)状态到配体结合(holo)状态的构象转变,无需依赖holo结构或大量采样。

2.数据集:研究基于PDBbind2020数据库(19,443个蛋白-配体复合物晶体结构),按时间划分:2019年前的数据用于训练和验证,2019年的数据用于测试。额外构建了Major Drug Targets (MDT)测试集(599对),聚焦激酶、GPCR等主要药物靶点,要求AlphaFold预测结构与晶体结构的pocket RMSD>2Å,确保测试难度。训练中通过AlphaFold预测结构与晶体结构插值生成蛋白部分的样本。

3.模型:DynamicBind是一个基于图神经网络的等变生成模型,使用粗粒化表示(蛋白以Cα节点和侧链二面角表示,配体以重原子节点表示),输出包括蛋白和配体的平移、旋转、扭转角更新,以及结合亲和力和cLDDT置信度评分。模型通过学习从apo到holo的“morph-like”变换,优化能量景观,包含63.67百万参数。

4.训练细节:训练在8块Nvidia A100 80GB GPU上进行5天,输入为添加morph变换的蛋白decoy构象和加高斯噪声的配体构象,目标是去噪操作。损失函数包括八项(配体和蛋白的平移、旋转、扭转等),通过Kabsch算法对齐apo和holo结构,结合扩散噪声调整构象过渡。推理时迭代20次更新初始结构。

案例实操图片:

培训目标

01.深度学习基因组学:深入学习与了解深度学习基本框架与逻辑,同时掌握基本的生物信息学软件(Linux、R、python等)的使用,让学员能更好的应对基因组数据,挖掘出超越已有知识的新知识。而构建好的深度学习模型去探求新的研究思路和寻找新的潜在生物学机制,更好的服务于自身的科学研究和探索的过程中

02.机器学习代谢组学:1. 熟悉代谢组学和机器学习相关背景知识以及硬件和软件;2. 入门 R 语言和机器学习理论和常规使用;3. 掌握代谢组学从样本处理到上下游数据分析以及出图的全流程;4. 能复现 CNS 及其子刊级别杂志中代谢组学相关文章中的图片;5. 能灵活熟练地分析自己的代谢组数据

03.机器学习微生物多组学联合分析:AIDD人工智能药物发现与设计:本课程让学员了解药物发现的前沿背景,学习人工智能领域的各类常见算法,熟悉工具包的安装与使用,掌握一定的算法编程能力,能够运用计算机方法研究药物相关问题。通过大量的案例讲解和实践操作,具备一定的AIDD模型构建和数据分析能力

04.CRISPR-Cas9基因编辑技术应用:该课程从全局出发,从CRISPR-Cas9等前沿工具的基本原理,到这些技术在医学、农业等的实际应用,由浅入深,从最初的原理讲解到最后的应用实战,学完本课程你将掌握基因编辑技术的相关原理及其应用,此外可以学到基因编辑系统的优化策略,可以学到如何操作常用的生物学软件。无论您是生物学专业的学生,还是对基因编辑感兴趣的科研人员,这门课程都将为您提供宝贵的知识和技能,助您在这一革新领域中取得突破

05.深度学习蛋白质设计:课程将详细讲解多种蛋白质结构预测模型,包括Alphafold2、Rosettafold2、ESMfold、RosettafoldNA、Rosettafold All Atom和AlphaFold3让学员都能够掌握多种蛋白质结构预测模型的使用并对不同的蛋白质采样方法作以对比。让学员都能够掌握蛋白质多构象采样方法与模型使用工具,深度学习蛋白质数据集挖掘工具与蛋白质口袋搜索工具并进行上机演示,学员将了解这两种工具的理论基础,并通过实际操作演示,掌握如何进行蛋白质口袋的识别与分析。基于深度学习的蛋白RFDiffusion(结构生成模型)、ProteinMPNN(逆折叠模型)、ProteinGenerator(结构与序列生成模型)利用Alphafold2来提升蛋白质设计的成功率;让学员都能够掌握david baker 的核心技术

06.CADD计算机辅助药物设计:本次培训主要掌握10种对接方法有:金属酶蛋白对接、蛋白-多糖对接、核酸-小分子对接、柔性对接、共价对接、蛋白-水合对接、蛋白-水分子-配体对接、抗体对接、大分子对接蛋白-多肽对接、大分子蛋白-蛋白对接, 以及虚拟筛选和分子动力学模拟

07.AIDD人工智能药物发现顶刊复现:本次培训主要掌握深度学习在化学反应预测中的应用,应用于真实药物研发场景的思维框架建立从蛋白质建模到下游任务(如药物筛选、作用机制分析)的系统性理解,增强将AI方法应用于实际生物医药问题的能力,自然语言处理(NLP)在分子生成中的应用 ,扩散模型在分子生成中的应用,通过案例分析(如Interformer筛选出高亲和力小分子),学习如何将这些预测技术应用于酶工程和药物发现,加速候选分子的筛选和优化

授课时间

01.深度学习基因组学

2025.07.19-2025.07.20 (09:00-11: 30--13:30-17:00)

2025.07.26-2025.07.27 (09:00-11: 30--13:30-17:00)

2025.08.02 (09:00-11: 30--13:30-17:00)

02.机器学习代谢组学

2025.07.21-2025.07.24 (19:00--22:00)

2025.07.28-07.31 (19:00--22:00)

2025.08.03 (09:00-11: 30--13:30-17:00)

03.机器学习微生物多组学联合分析

2025.07.19-2025.07.20 (09:00-11: 30--13:30-17:00)

2025.07.26-2025.07.27 (09:00-11: 30--13:30-17:00)

2025.08.02 (09:00-11: 30--13:30-17:00)

04.CRISPR-Cas9基因编辑技术应用

2025.07.19-2025.07.20 (09:00-11: 30--13:30-17:00)

2025.07.26-2025.07.27 (09:00-11: 30--13:30-17:00)

2025.08.02 (09:00-11: 30--13:30-17:00)

05.AI蛋白质设计

2025.07.12-2025.07.13 (09:00-11:30--13:30-17:00)

2025.07.19-2025.07.20 (09:00-11: 30--13:30-17:00)

2025.07.26-2025.07.27 (09:00-11: 30--13:30-17:00)

2025.08.02 (09:00-11: 30--13:30-17:00

06.CADD计算机辅助药物设计

2025.07.12-2025.07.13 (09:00-11:30--13:30-17:00)

2025.07.19-2025.07.20 (09:00-11: 30--13:30-17:00)

2025.07.26-2025.07.27 (09:00-11: 30--13:30-17:00)

2025.08.02 (09:00-11: 30--13:30-17:00

07.AIDD人工智能药物发现顶刊复现

2025.07.15-06.07.18 (19:00--22:00)

2025.07.20-06.07.23 (19:00--22:00)

2025.07.28-06.07.29 (19:00--22:00)

腾讯会议直播上课 课后提供直播回放

培训费用

课程报名费用:

深度学习基因组学、机器学习代谢组学、深度学习解析蛋白质组学、机器学习微生物多组学联合分析、CRISPR-Cas9基因编辑技术应用

公费价:每人每班¥4980元 (含报名费、培训费、资料费)

自费价:每人每班¥4680元 (含报名费、培训费、资料费)

深度学习蛋白质设计:

公费价:每人每班¥6880元 (含报名费、培训费、资料费)

自费价:每人每班¥6580元 (含报名费、培训费、资料费)

AIDD与CADD:

公费价:每人每班¥5880元 (含报名费、培训费、资料费)

自费价:每人每班¥5580元 (含报名费、培训费、资料费)

重磅优惠:

优惠1:

报二送一(同时报名两个班免费赠送一个学习名额赠送班任选)

两班同报:10880元 (可学习三个直播课)

三班同报:14880元 (可学习四个直播课)

四班同报:18880元 (可免费学习一整年本单位举办的任意课程)

特惠2:28880元(可免费学习两整年本单位举办的任意课程)

优惠3:提前报名缴费可享受300元优惠(仅限十五名)

特惠福利:报一送一(额外送的回放)(包含全套课程回放和课件资料ppt)

培训特色及福利

1、课程特色--全面的课程技术应用、原理流程、实例联系全贯穿

2、学习模式--理论知识与上机操作相结合,让零基础学员快速熟练掌握

3、课程服务答疑--主讲老师将为您实际工作中遇到的问题提供专业解答

授课方式:通过腾讯会议线上直播,理论+实操的授课模式,老师手把手带着操作,从零基础开始讲解,电子PPT和教程开课前一周提前发送给学员,所有培训使用软件都会发送给学员,有什么疑问采取开麦共享屏幕和微信群解疑,学员和老师交流、学员与学员交流,培训完毕后老师长期解疑,培训群不解散,往期培训学员对于培训质量和授课方式一致评价极高!

腾讯会议实时直播解答|手把手带着操作

SIMPLICITY

官方联系人(请扫码详细咨询)

联系人:朱老师

报名咨询电话:13283822597(同V)



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“让我睡一次,不然死给你看!”17岁少年持刀,威胁舅妈发生关系

“让我睡一次,不然死给你看!”17岁少年持刀,威胁舅妈发生关系

有书
2026-01-09 21:30:59
74岁郑则仕10公里首马完赛!甩肉70斤稳降糖,周润发全程陪跑暖心

74岁郑则仕10公里首马完赛!甩肉70斤稳降糖,周润发全程陪跑暖心

东方不败然多多
2026-01-20 00:14:54
梁小龙生前去美国找过黄元申,遗憾对方拒绝见他,如今天人永隔了

梁小龙生前去美国找过黄元申,遗憾对方拒绝见他,如今天人永隔了

达文西看世界
2026-01-19 15:49:32
越媒:亚足联选6大潜力新星却遗忘阮庭北,引发越南球迷不满

越媒:亚足联选6大潜力新星却遗忘阮庭北,引发越南球迷不满

小鬼头体育
2026-01-20 07:35:53
为什么老顾客突然不来照顾生意了?网友:为了一瓶矿泉水查监控

为什么老顾客突然不来照顾生意了?网友:为了一瓶矿泉水查监控

滑稽斑马呀
2025-11-27 17:02:09
87年我师范毕业分到乡镇,父亲找县长发小吃顿饭,我的人生被改写

87年我师范毕业分到乡镇,父亲找县长发小吃顿饭,我的人生被改写

卡西莫多的故事
2025-12-02 09:38:03
日本政府统计数据:去年12月赴日中国游客同比下降40%

日本政府统计数据:去年12月赴日中国游客同比下降40%

澎湃新闻
2026-01-19 18:32:26
白天棋圣,晚上喝4斤!聂卫平女儿发文,揭秘父亲不为人知的辛酸

白天棋圣,晚上喝4斤!聂卫平女儿发文,揭秘父亲不为人知的辛酸

复转这些年
2026-01-19 23:47:16
最高上调存款利率20个基点,部分中小行逆势加息

最高上调存款利率20个基点,部分中小行逆势加息

华夏时报
2026-01-20 08:09:04
5+3!陈国豪暴揍老东家!CBA又一奇葩条款诞生

5+3!陈国豪暴揍老东家!CBA又一奇葩条款诞生

篮球实战宝典
2026-01-19 23:11:29
包钢工厂爆炸新进展:公司底裤被扒 出事不是第一次 负责人被带走

包钢工厂爆炸新进展:公司底裤被扒 出事不是第一次 负责人被带走

鋭娱之乐
2026-01-19 19:20:27
2026年中考新政官宣!满足2个条件直升高中,中等生家长笑了

2026年中考新政官宣!满足2个条件直升高中,中等生家长笑了

老特有话说
2026-01-19 20:15:08
詹杜库时代要落幕了?全明星投票变局,见证新生代接棒

詹杜库时代要落幕了?全明星投票变局,见证新生代接棒

走进事件的中心
2026-01-20 07:45:42
放35天春节假只是小意思,全网打工人羡慕的“神仙公司”老板:把一半利润给员工

放35天春节假只是小意思,全网打工人羡慕的“神仙公司”老板:把一半利润给员工

环球网资讯
2026-01-19 07:20:37
朱元璋赐给徐达一座豪华王府,徐达却警告儿子:千万不能搬进去

朱元璋赐给徐达一座豪华王府,徐达却警告儿子:千万不能搬进去

铭记历史呀
2026-01-19 16:49:10
终于封海!“正式交锋”已打响,中国人民解放军不再口头警告

终于封海!“正式交锋”已打响,中国人民解放军不再口头警告

爱吃醋的猫咪
2026-01-17 21:54:38
最令大龄剩女崩溃的一瞬间在什么时候?看网友的评论引起万千共鸣

最令大龄剩女崩溃的一瞬间在什么时候?看网友的评论引起万千共鸣

夜深爱杂谈
2026-01-10 22:27:12
佩林卡拒绝了20份关于里夫斯的报价;湖人仅愿为两名巨星交易他

佩林卡拒绝了20份关于里夫斯的报价;湖人仅愿为两名巨星交易他

刘哥谈体育
2026-01-20 00:57:00
外籍身份藏着掖着,海外资产早铺好了退路,转头教普通人“吃苦”

外籍身份藏着掖着,海外资产早铺好了退路,转头教普通人“吃苦”

百态人间
2026-01-10 05:20:05
开拓者官方:球队将杨瀚森下放至G联盟撕裂之城混音队

开拓者官方:球队将杨瀚森下放至G联盟撕裂之城混音队

北青网-北京青年报
2026-01-20 07:34:03
2026-01-20 08:47:00
植物研究进展 incentive-icons
植物研究进展
关注植物领域最新研究动态。
3199文章数 2698关注度
往期回顾 全部

科技要闻

去年预亏60亿后再投百亿 两大车企紧抱华为

头条要闻

女子订3间双床房被告知是3张单人床 退订扣80%违约金

头条要闻

女子订3间双床房被告知是3张单人床 退订扣80%违约金

体育要闻

错失英超冠军奖牌,他却在德甲成为传奇

娱乐要闻

吴磊起诉白珊珊诽谤,白珊珊称被盗号

财经要闻

2026股市猜想

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

数码
教育
亲子
艺术
公开课

数码要闻

荣耀Magic8 RSR体验:7999元买个不强调影像的超大杯,反而对了?

教育要闻

函数建模求长度最值,这个思路太妙啦!

亲子要闻

宝妈必学,孩子不懂对侵犯说不,任何人都有可能是坏人!

艺术要闻

瑞典艺术大师,佐恩人物作品精选19幅

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版