*仅供医学专业人士阅读参考
AI虚拟筛选大显身手,从12万化合物中精准锁定三种新型ALK抑制剂。
随着人工智能技术在药物研发领域的深入应用,其在加速靶向抑制剂筛选方面展现出巨大潜力。发表于
Journal of Computer-Aided Molecular Design的一项研究 [1] ,成功构建了一套融合机器学习与深度学习的虚拟筛选平台,通过配体与结构双重筛选策略,从超过 12万化合物中精准识别出三种具有潜力的新型ALK抑制剂,为ALK阳性非小细胞肺癌(NSCLC)的治疗提供了新的候选分子。
研究背景
肺癌是全球癌症相关死亡的主要原因,其中NSCLC占绝大多数。ALK融合作为NSCLC中重要的驱动基因变异,发生率约为3%–7%[2],尤其在年轻非吸烟肺腺癌患者中较为常见。尽管目前已有五种ALK抑制剂获美国FDA批准上市,包括克唑替尼、色瑞替尼、阿来替尼、布格替尼和洛拉替尼,但临床耐药性问题及药物选择性不足仍是当前治疗面临的主要挑战。
传统药物开发流程耗时长、成本高,且依赖于大规模实验筛选。近年来,计算机辅助药物设计尤其是人工智能技术的引入,显著提升了先导化合物发现的效率。定量构效关系模型作为经典的计算筛选方法,虽在早期研究中取得一定进展,但仍受限于数据集规模小、模型泛化能力不足等问题。本研究旨在构建一个集成多种机器学习算法与分子对接技术的AI驱动筛选平台,以实现高效、精准的ALK抑制剂虚拟筛选。
研究方法与数据构建
研究团队从科学文献中系统收集了26,168个具有明确ALK抑制活性的化合物数据,经过严格的标准化处理和类药性筛选,最终构建了一个包含1,664个化合物的高质量数据集,其中活性化合物480个,非活性化合物1,184个。该数据集被划分为训练集与外部测试集,用于模型构建与验证。
在计算方法上,研究采用了双轨策略:配体基于药物发现和结构基于药物发现。在LBDD方面,研究比较了19种分子表征方法,并系统评估了15种机器学习算法的性能,包括XGBoost、随机森林、支持向量机等传统算法,以及人工神经网络和图神经网络等深度学习模型。在SBDD方面,研究整合了三种分子对接程序的评分结果,构建了基于XGBoost的共识对接模型,以提高结合亲和力预测的准确性。
模型构建与优化
通过系统的分子表征比较,研究发现基于SMILES的扩展连通性指纹在区分ALK抑制剂活性方面表现最优,被选定为后续模型构建的基础特征。在算法选择环节,XGBoost与CatBoost表现出色,但考虑到计算效率,最终选择XGBoost作为主要机器学习模型。
人工神经网络模型经过贝叶斯优化调参后,性能显著提升,外部验证的F1分数达到0.890。值得注意的是,传统的机器学习模型在本次研究中表现优于图神经网络,这一结果可能与数据集规模和特征编码方式有关,提示在小样本场景下,精心设计的特征工程仍具有重要价值。
研究进一步构建了一个集成投票模型,结合XGBoost、ANN和GNN三种算法的预测结果,以外部验证F1分数0.949和平均精度0.963的优异表现,成为虚拟筛选流程中的核心分类工具。
在结构基于筛选方面,研究团队开发了基于机器学习的共识分子对接模型,将GNINA、Vina-GPU和AutoDock-GPU三种对接程序的评分作为特征输入XGBoost模型。该共识模型在测试集上取得了0.818的ROC-AUC值,显著优于单一对接工具的表现。
虚拟筛选与候选化合物鉴定
研究团队将构建的AI筛选平台应用于包含120,571个具有NSCLC细胞系抑制活性化合物的库中,经过多级筛选漏斗:首先基于类药性规则排除不符合要求的化合物;随后通过集成分类模型预测活性;最后利用共识对接模型评估结合模式。
经过这一严格流程,从初始库中筛选出三种最具潜力的ALK抑制剂候选化合物:CHEMBL1689515、CHEMBL2380351和CHEMBL102714。这些化合物均被预测具有良好的类药性和与ALK激酶结构域的高亲和力。
作用机制与结合模式分析
分子对接结果显示,这三种候选化合物均能有效结合于ALK蛋白的ATP结合口袋,并与铰链区关键残基Met1199形成重要相互作用。值得注意的是,所有候选分子都含有酮基官能团,与已上市药物阿来替尼具有相似的药效团特征,提示它们可能作为I型ATP竞争性抑制剂发挥作用。
具体而言,CHEMBL1689515作为Desmosdumotin B类似物,此前研究显示其对多种癌细胞系具有抗增殖活性。该化合物在结合口袋中的定位与阿来替尼类似,但其乙基取代的4H-色烯环扩展了结合区域,可能通过水分子介导的氢键与Val1130形成额外相互作用。
CHEMBL2380351是洛美沙星衍生物,其喹啉支架与Met1199形成关键相互作用,哌嗪环上的氮原子则与Glu1167和Gly1269形成额外接触,增强了结合亲和力。
CHEMBL102714此前已知为糖原合酶激酶3β抑制剂,在本研究中被发现其酮基位置与Met1199邻近,1H-吡咯环的存在可能增强了其在铰链区的相互作用网络。
讨论与展望
本研究成功构建了一个综合运用多种人工智能技术的虚拟筛选平台,实现了对大规模化合物库的高通量、高精度筛选。研究结果表明,传统机器学习方法如XGBoost在当前的ALK抑制剂预测任务中仍具有竞争力,特别是在数据量有限的情况下,精心设计的特征工程与模型优化能够取得优于复杂深度学习模型的效果。
从临床转化角度看,本研究采用的药物重定位策略具有明显优势。所选候选化合物均已具备一定的药理活性数据和类药性特征,大大降低了后续开发的不确定性和时间成本。此外,研究提供的在线预测平台(可通过Hugging Face访问)为不具备编程背景的医学研究者提供了便捷的工具,有助于促进AI辅助药物发现技术的普及应用。
研究的局限性包括训练数据规模有限,以及GNN模型表现未达预期,这可能与分子图编码方式未能充分捕捉立体化学信息有关。未来研究可探索更先进的图神经网络架构,如几何相互作用GNN,或引入蛋白-配体相互作用指纹等结构特征来丰富模型输入信息。
结论
本研究开发了一套融合多种人工智能算法的虚拟筛选平台,通过配体基于和结构基于筛选的有机结合,成功从大规模化合物库中识别出三种具有潜力的ALK抑制剂候选化合物。这一综合策略不仅展示了AI技术在药物重定位中的实用价值,也为加速ALK阳性NSCLC的靶向治疗开发提供了新思路。进一步的功能验证与优化研究将有望推动这些候选化合物向临床应用转化。
参考文献:
[1]Trinh TC, et al. Synergy of advanced machine learning and deep neural networks with consensus molecular docking for virtual screening of anaplastic lymphoma kinase inhibitors. J Comput Aided Mol Des. 2025 Sep 15;39(1):79.
[2]张绪超, 等. 中国间变性淋巴瘤激酶(ALK)阳性NSCLC诊疗指南[J].中华病理学杂志,2015,44(10):696-703.
*此文仅用于向医疗卫生专业人士提供科学信息,不代表平台立场。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.