摘要:本文深入解析了一项关于利用机器学习(ML)技术从 CHO 细胞培养的培养基标记预测抗体N - 糖基化质量的重要研究。研究通过对 12 种不同培养条件下的 Anti-HER2 抗体 fed-batch 生物反应器细胞培养进行分析,筛选出 18 种关键培养基标记,构建的机器学习模型在预测 N - 糖基化相关的岩藻糖基化、半乳糖基化、甘露糖基化和唾液酸化丰度方面表现优异(回归分析相关系数 0.80-0.92,分类分析 AUC 75.0-97.2)。该研究不仅为生物制造过程中抗体质量的监测与优化提供了新方法,还展示了机器学习在生物工艺开发中的巨大潜力,对提升治疗性单克隆抗体(mAb)的生产效率和质量控制具有重要意义。
一、研究背景:N - 糖基化与抗体质量的密切关联
在治疗性单克隆抗体(mAb)的研发与生产中,N - 糖基化是影响其质量的关键因素。N - 糖基化是指在蛋白质合成过程中,寡糖链(由多个单糖组成)通过酰胺键连接到天冬酰胺氨基酸的酰胺氮上的过程,这一过程发生在细胞的内质网 - 高尔基体复合体中,受糖基转移酶效率、核苷酸糖供体可用性以及糖基化生物合成途径的代谢前体或辅因子等多种因素影响。
对于 mAb 而言,N - 糖基化主要发生在 CH2 结构域,是决定抗体治疗 efficacy(疗效)的关键质量属性(CQA)。根据结构差异,mAb 相关的 N - 糖基可分为岩藻糖基化、半乳糖基化、甘露糖基化和唾液酸化四大类,每一类都对抗体的免疫原性、半衰期和药代动力学等特性有重要影响。例如,半乳糖基化影响补体活性,岩藻糖基化影响抗体依赖的细胞毒性(ADCC),甘露糖基化影响抗体的清除速率,而唾液酸化则与糖蛋白药物的药代动力学和药效动力学特性相关。
然而,糖基化生物合成途径极为复杂,在生物制造过程中难以控制。细胞培养的诸多参数,如培养基成分、pH、温度等,都可能通过改变宿主细胞代谢而影响 N - 糖基化的类型、复杂性、分支和拓扑结构。因此,如何通过调控培养条件实现对 N - 糖基化模式的精准控制,成为生物制造领域的重要课题。
二、研究目标:利用机器学习预测 N - 糖基化质量
传统的生物工艺优化多依赖于多变量数据分析(MVDA),如偏最小二乘回归分析和主成分分析等,但这些方法在处理复杂非线性关系时存在局限性。随着高通量实验技术的发展,大量可收集的数据为机器学习(ML)的应用提供了可能。
本研究的核心目标是探索利用机器学习技术,基于 CHO 细胞培养的培养基相关变量(称为培养基标记)来预测 N - 糖基化类型的丰度。研究团队希望通过构建高效的机器学习模型,实现从细胞外培养基特性推断 N - 糖基化关键质量属性的目的,为生物制造过程中的工艺开发、上下游处理提供新的工具。
三、实验设计:全面的数据采集与模型构建3.1 细胞培养与实验条件
研究使用CHO-K1 细胞系生产 Anti-HER2 生物类似药(IgG1 亚型),采用 Ambr250 生物反应器进行 14 天的 fed-batch 培养。实验设置了 12 种不同的培养条件,通过改变pH(6.9-7.3)、溶解氧(dO₂)(30-50% 空气饱和度)、温度(是否在第 5 天从 37℃降至 33℃)以及两种商业培养基(Media platform 1 和 Media platform 2)来引入 N - 糖基化的变异性(表 1)。每个条件设置 3 个生物学重复,培养周期为 12 天(第 3-14 天),最终获得了包含 1296 个样本的大型数据集。
3.2 糖基化分析与代谢物检测
糖基化分析:通过 Protein A HP spin trap 柱纯化细胞上清中的抗体,使用重组 PNGase F 释放 N - 糖基,并用 8 - 氨基芘 - 1,3,6 - 三磺酸(APTS)标记,最后通过毛细管电泳(CE)结合激光诱导荧光检测(激发 488nm,发射 520nm)对 N - 糖基进行鉴定和定量,计算每种糖基的相对丰度(占所有检测糖基的百分比)。
代谢物分析:收集废弃培养基,经 10kDa 分子量截留膜过滤后,采用超高效液相色谱(UPLC)联用 QExactive Orbitrap 质谱仪进行分析,定量葡萄糖、乳酸、20 种氨基酸以及 145 个其他峰特征,并通过计算伪细胞消耗率(即培养基标记)作为模型输入。
研究选择随机森林(RF)算法构建机器学习模型,因其训练效率高、适合小样本且具有非参数特性。同时,采用偏最小二乘回归(PLRS)作为 MVDA 方法进行对比。模型输入包括 8 类基础变量(如温度、pH、葡萄糖等)、20 种氨基酸、18 种筛选出的培养基标记等,通过 8 种不同的输入组合优化模型。
评估指标包括:
回归分析:皮尔逊相关系数(CC)、平均绝对误差(MAE)、均方根误差(RMSE);
分类分析:受试者工作特征曲线下面积(AUC)。
采用留一法交叉验证(LOOCV)评估模型性能,即每次用两个生物学重复训练,一个验证,最终取平均值。
通过毛细管电泳分析,研究共鉴定出 16 种主要 N - 糖基,并将其归为岩藻糖基化、半乳糖基化、甘露糖基化和唾液酸化四大类(图 1)。结果显示,不同培养条件和生物学重复间的糖基化丰度存在显著差异,这为模型训练提供了足够的变异性。
通过相关性分析,研究从 167 个质谱峰中筛选出 18 种培养基标记(MMs),这些标记的变异系数(CV)<30%,且与至少一种糖基化类型的相关系数(CC)≥0.6。值得注意的是,这些标记主要包括 3 种核苷酸衍生物、3 种核苷酸和 4 种核苷酸糖(图 2),而传统认为重要的基础变量(如 pH、温度、葡萄糖、乳酸)和大多数氨基酸与糖基化的相关性较低(CC<0.6),仅 L - 谷氨酸的相关性达到 0.6。
4.2 机器学习模型的优异性能
回归分析:随机森林模型在使用 18 种培养基标记时表现最佳,岩藻糖基化、半乳糖基化、甘露糖基化和唾液酸化的相关系数(CC)分别为 0.94、0.84、0.94 和 0.80,显著高于 MVDA 方法(图 3)。其中,半乳糖基化的预测性能提升最为明显(RF 的 CC 为 0.84,MVDA 为 0.52),这得益于机器学习对非线性关系的捕捉能力。
分类分析:对于预测糖基化异常值(如半乳糖基化 < 30%),随机森林模型的 AUC 显著高于 MVDA,部分阈值下 AUC 可达 93.79(图 4)。
此外,研究发现加入 18 种培养基标记后,无论是 RF 还是 MVDA 模型的性能均显著提升,而使用所有 173 个特征时性能反而下降,可能因过拟合或维度灾难导致(图 5)。
五、应用价值:推动生物制造的数字化与智能化5.1 工艺开发与质量控制
该研究表明,通过监测 18 种培养基标记,可间接推断 N - 糖基化关键质量属性,无需直接检测糖基化,这将显著降低检测成本和时间,便于在上游生物工艺中实时调整培养条件,确保抗体质量稳定。例如,分类模型可快速识别半乳糖基化水平过低的批次,优先进行下游纯化,提高生产效率。
5.2 优化 feeding 策略
利用模型模拟不同培养基标记变化对糖基化的影响,可开发优化的 feeding 算法,通过调控核苷酸糖前体等关键成分,定向提高目标糖基化水平(如降低岩藻糖基化以增强 ADCC 活性),这与之前通过补充尿苷、锰离子等调控糖基化的研究思路一致,但更具精准性和系统性。
5.3 实时监测与数字化制造
若能开发出针对 18 种培养基标记的实时检测技术(如实时质谱联用微流控装置),可实现糖基化质量的在线监测,与拉曼光谱等方法形成互补,推动生物制造的数字化转型,符合质量源于设计(QbD)理念,满足 FDA 等监管机构对工艺可追溯性和可控性的要求。
六、研究展望与局限性6.1 拓展应用范围
目前研究仅限于 CHO 细胞生产的 Anti-HER2 抗体,未来需验证该方法在其他细胞系(如 HEK293)和抗体类型中的适用性,以确认其普适性。此外,可尝试更复杂的机器学习算法(如深度学习),结合代谢网络模型,进一步提升预测精度。
6.2 解析分子机制
虽然 18 种培养基标记与糖基化密切相关,但其中部分标记的具体身份和作用机制尚未明确。深入研究这些标记参与的代谢途径(如核苷酸糖合成),将有助于从分子层面理解糖基化调控规律,为培养基优化提供理论依据。
6.3 技术挑战
实时检测 18 种培养基标记的技术尚未成熟,需要开发更高效的微型化检测装置和自动化数据分析流程,才能真正实现工业级别的实时质量监控。
识别微信二维码,添加抗体圈小编,符合条件者即可加入抗体圈微信群!
请注明:姓名+研究方向!
本公众号所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系(cbplib@163.com),我们将立即进行删除处理。所有文章仅代表作者观点,不代表本站立场。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.