导读
《人工智能与计算生物的未来》把人工智能和生物技术应用于生物工程、药物开发和医疗方面的科技医疗方面。
2024年,诺贝尔化学奖授予蛋白质设计和结构预测的相关研究,展现了人工智能在推动科学创新方面的重要作用,也证实了AI for Science(AI赋能科学研究)的热潮来袭。在这样的背景下,这本书正是AI for Science的生物学实践和代表性作品。
作者布赖恩·希尔布什既是科学研究者又是企业创办者,他曾创办多家关于计算生物学、遗传学和基因组学的公司,积累了30多年行业相关经验,把前沿研究和商业化发展有机结合在一起。
西湖大学特聘研究员卢培龙表示,“这是一部展现生物医药革命前沿的力作,深刻揭示了人工智能与生物技术如何协同颠覆传统药物研发范式:从基因编辑技术精准改写生命密码,到深度学习算法解析海量组学数据;从科技巨头布局云端医疗生态,到AI辅助药物研发效率的指数级提升。”
赖恩·希尔布什|撰文
人类一生中可能出现的一系列神经系统疾病、急性脑损伤和精神疾病为在神经病学中使用基于人工智能的算法带来了巨大的挑战和突破性的机遇。从表面上看,神经系统疾病有着癌症的一个特征,也就是说,它们构成了我们知之甚少或未发现的疾病亚型的不同病症的集合,例如许多类型的痴呆。个体之间的疾病异质性使得这些疾病难以诊断,即使有复杂的成像模式、一系列高度敏感的生物标志物和配备精心设计的临床评估工具的专家。
与癌症一样,个体的遗传和环境在疾病表现中起着重要作用。神经发育障碍,如自闭症和精神疾病,包括精神分裂症,在神经系统疾病形成和大脑发育期间扎根,直到一个人进入成年早期才完成。大脑的可塑性是驱动发育的主要特征,这种能力在完全成熟后也会在较小程度上保留下来。因此,大脑在生命早期或晚期都会受到创伤经历的影响,其固有的可塑性为伤害和愈合、重新编程以及恢复和改善健康提供了机会。人工智能可以直接与大脑多变的性质—运动、感知或其他功能进行互动,这将为临床医生提供另一种解决一系列神经疾病的工具。
人工智能在与大脑功能互动方面还处于起步阶段,除非考虑到所有为保持对社交平台的关注或改变购物行为而设计的算法。一些公司,如Modality,已经设计了对话式人工智能系统,以整合语音和面部反应,监测神经功能和精神状况。Modality 正在开发的人工智能工具可以为临床医生和研究人员生成足够高质量的数据,以便能够检测对治疗的反应或改变的生存状况。Modality有一个系统,可能会被亚马逊、谷歌、苹果和微软提供的家庭或
诊所环境计算设备复制。无论对话式人工智能系统通过何种途径到达患者并连接到医疗保健系统,人类与人工智能的互动都有巨大的空间来提高生活质量,特别是对那些有神经障碍和暂时丧失工作能力的人来说。
神经病学和肿瘤学一样,高度依赖成像技术进行精确的医学诊断。与医学的其他领域一样,人工智能将对大脑成像任务和图像解释产生巨大影响。在神经病学领域,人工智能在自动化特征提取、预测疾病类别和结果以及改善神经病学评估方面的例子越来越多。从临床医生的角度来看,这些工具将为从图像中提取特征所需要的自动化提供支持,并成为患者治疗和疾病监测任务的关键临床决策支持工具。跟踪图像的来源可以发现人工智能在神经病学中的应用进展。在阿尔茨海默病研究中,相当于癌症的大规模TCGA 数据集源于 ADNI(阿尔茨海默病神经影像学倡议)。正在进行的纵向研究搜集了来自几个队列的 3 000 多名参与者的磁共振成像和正电子发射层析术的大脑扫描,这些扫描通过南加州大学神经成像实验室的图像和数据档案共享。该实验室的档案搜集了世界上最著名的神经科学研究数据,目前有 141 项研究数据,涉及超过 55 000 名受试者的生物医学信息,从自闭症、阿尔茨海默病、帕金森和亨廷顿病到创伤性脑损伤和人脑连接体项目。阿尔茨海默病纵向成像数据的可用性为研究人员提供了大量机会,根据当前的诊断协议测试新的基于人工智能的模型。在使用图像信息的深度学习策略之前,对 ADNI 研究数据的早期研究表明,各种机器学习方法适用于预测早期阿尔茨海默病病理的某些方面。
加州大学旧金山分校科学家的最新研究进展表明,通过正电子发射层析术的数据训练的深度学习模型可以在发病前6 年检测到与阿尔茨海默病早期、无症状阶段相关的变化。这项研究的一个引人注目的方面是通过成像展示了大脑的显著性图谱,该图旨在引导可视化算法如何做出决定,将个体分为完全阿尔茨海默病、轻度认知障碍或无疾病的人。对显著性图谱的系统分析有朝一日可能会揭示一种新的成像生物标志物,神经科医生未来可以在临床评估中使用。不幸的是,这项研究展示了一些神经病理学在脑区中的微妙迹象,但没有明确的信号,这表明该算法在进行预测时考虑了整个大脑的信息。
这项基于正电子发射层析术的试点研究与人工智能相结合,产生了使用功能成像而非结构性磁共振成像预测神经疾病的初步结果。研究人员指出,在将人工智能的性能解释为一种真正的临床工具时,存在几点警告,但新的研究设计和改进的算法将帮助医生捕捉阿尔茨海默病的发作点,而预防策略将发挥最大的影响。目前也有其他工作正在进行,以测试和验证磁共振成像数据相关的人工智能算法,这是一种更便宜的替代方案,从长远来看更适合被医疗行业采用。
阿尔茨海默病和其他神经系统变性疾病的诊断和治疗如果要获得发展,人们就必须努力应对大脑中极其复杂的疾病生物学和神经系统症状的复杂临床表现。在过去的几十年里,一个强烈的共识已经建立,即神经系统变性过程是由病理性蛋白质聚集推动的,从而引发了统称为蛋白质病变的疾病。这些与疾病相关的聚集物在阿尔茨海默病中很常见,神经炎斑中存在毒性β淀粉样蛋白,神经原纤维缠结中存在微管相关蛋白质 tau。帕金森病、多系统萎缩和路易体病以α突触核蛋白包裹体为特征,而额颞叶痴呆患者的大脑有 tau 或 TDP—43 包裹体。在肌萎缩侧索硬化中,TDP—43 胞质聚集体经常出现在大脑的上运动神经元中。朊病毒蛋白聚集体是克罗伊茨费尔特—雅各布病的标志。对这些疾病中的许多种来说,现在很清楚聚集蛋白也会发生相互作用,患病个体的大脑通常含有两种或更多不同的聚集体类型,它们在可见的细胞外斑块和细胞内包裹体中可以被发现。
在20 世纪 90 年代,人们通过 DNA 测序和遗传学研究得到了关于神经系统变性疾病病理的线索。一些编码上述蛋白质基因的遗传突变会导致有毒聚集性物的产生,如β淀粉样蛋白,或者诱导蛋白质错误折叠和随后的聚集。绝大多数肌萎缩侧索硬化患者身上没有发生人类 TDP—43 基因的突变,但该蛋白被异常地修饰。蛋白质病变疾病启动步骤的特性以及相关聚集物在受影响大脑区域被最终破坏中所起的作用都是激烈辩论和研究的问题。
神经科医生准确诊断这些临床症状重叠的疾病几乎是不可能的,因为患者通常符合多种疾病的标准,而当前的工具仅专注于评估一种或两种生物标志物。为了开始应对这一诊断挑战,一项开创性的研究利用一系列统计模型来分析上文中提到的几种聚集性致病蛋白之间的共同病理,以及15 个脑区的神经元丢失、胶质细胞增生和血管病。18 无监督聚类工具调用了共 98 个特征来对被诊断患有神经系统变性疾病的患者的 895 个样本进行分类,该工具定义了 6 个核心聚类。分类结果产生了显著的诊断重组,该工具将个体聚类到与新的跨诊断类别相对应的蛋白病家族中。这些聚类本身不重叠,分别围绕一个或多个聚集蛋白组织:tau(聚类1),β淀粉样蛋白和 tau(聚类 2),TDP—43(聚类 3),α突触核蛋白(聚类 4),β淀粉样蛋白和α突触核蛋白(聚类 5),以及聚类 6,其特征是脑病变病理特征低,相关致病蛋白没有显著信号。让非专业人士感到惊讶的是,阿尔茨海默病的初步诊断还远远没有接近患病大脑可能发生的故事的终点。在这个大型研究组中,被诊断患有阿尔茨海默病的个体在所有聚类或跨诊断类别中都被发现了,诊断结果的幕后潜伏着十几种其他神经系统变性疾病。其中一些疾病,如路易体病,一种常见的痴呆,与阿尔茨海默病伴随发生,成为一个重要的继发性诊断个体子集。通过使用仅从组织病理学推断的分子数据的信息,聚类揭示了这些共享的联系,并表明神经疾病患者可能携带神经科医生无法诊断的其他潜在病理。在实践层面上,研究人员能够训练一个逻辑斯谛回归模型,使用认知测试分数结合生物标志物水平和基因分型,准确预测这 6 个类别的成员资格。这种基于数据科学的方法可以在神经学领域之外更广泛地识别疾病亚型。
在阿尔茨海默病研究中积累的脑成像数据宝库,特别是来自ADNI 的大量数据,已经对其他神经学研究领域产生了积极影响,特别是在迁移学习的应用上。这方面的一个很好的例子是基于人工智能的多发性硬化诊断。法比安·艾特尔及其同事使用一组来自 ADNI 的 921 名受试者数据来预训练深度学习模型,它能够以 87% 的准确率对多发性硬化患者和健康的志愿者进行分类。
在多发性硬化中,一个更具挑战性的任务是预测疾病的发展轨迹。在布莱根和妇女医院的多发性硬化综合纵向调查(CLIMB队列)中,研究者对 724 名患者开展了一项为期 5 年的研究,并对加州大学旧金山分校 EPIC 数据集里面的 400 名患者进行了验证。这里的分类任务是根据临床和磁共振成像数据(基于两年内获得的信息),预测疾病状况是否会在 5 年后恶化。该团队建立了一系列模型,其中一个子集基于传统的机器学习模型(支持向量机、逻辑斯谛回归和随机森林),另一个子集使用集成学习(XGBoost、LightGBM 和 Meta—L)。集成学习方法的模型性能略好,AUC 范围为 0.79~0.83。尽管这些结果远非完美的预测,但考虑到同一研究队列中进行的研究,这些研究发现了病程和人口统计学的显著差异,并且限制了预期相关性的强度,相关结果令人印象深刻。
用于图像分类的深度学习方法在神经学的其他领域也表现出色,包括癫痫、卒中和其他急性神经事件(如出血和颅骨骨折)。许多神经放射学扫描是在临床上进行的,以获得体积(三维)数据,这对人工智能模型来说是一项更具挑战性的训练任务。埃里克·厄尔曼带领的一个团队建立了一个三维卷积神经网络模型,用以检测急性神经事件,该模型使用了 37 236 次计算机断层扫描,这些扫描包含了进行标注的 100 000 份放射学报告。研究人员开展了一项随机的、具有前瞻性的临床试验,以测试人工智能神经放射学算法工作流程与放射科医生的表现对比,该工作流程可用于在医院 / 急诊室环境中对患者进行分类。训练有素的三维卷积神经网络在优先处理最紧急病例的能力方面超过了放射科专家的表现。毫不奇怪,人工智能的速度比专家快了 150 倍。这项研究是一个优秀的例子,代表了模拟临床环境中对基于深度学习的工作流程的严格测试。
人工智能与计算生物的未来
定价:88.00 元
书号:ISBN978-7-5217-7394-1
作者:布赖恩·希尔布什(Brian Hilbush)
译者:刘也行邓攀
出版时间:2025 年 4 月
这是一本探讨人工智能与生物技术的融合颠覆传统医疗,并会对未来药物研发产生重大影响的书。作者凭借其在生物科学方面的专业背景,以及在生物技术和制药行业的从业经验,为读者呈现了对于医疗科技这一前沿领域的深刻见解。
书中首先概述了数据科学方法的兴起以及生物学领域的范式转变,这一转变催生了计算生物学的革命,即通过计算机模拟进行生物实验和药物研发。作者详细介绍了人工智能和深度学习领域的重大突破,并探讨了这些技术在医学中的广泛应用,包括DeepMind开发的AlphaFold如何使用深度学习模型预测蛋白质结构。书中还重点总结了生物技术领域的创新突破,尤其是基因编辑和CRISPR-Cas9在药物开发中的应用。
此外,作者还阐述了谷歌、脸书等科技巨头对这一领域的布局,提供了一份关于医学人工智能创业的概览,揭示了投资如何塑造制药行业。无论是对科技和医疗感兴趣的普通读者,还是风险投资行业和政府的决策者,都能从这本书中得到启发。这本书阐明了技术驱动的医学所面临的机遇,也指出了它所面对的障碍和挑战。但无论如何,我们即将进入一个新的由生物技术驱动的科技时代。
青科沙龙第154期:解读邹伟平、王少萌最新Nature研究;关键词:STAT3、PROTAC、癌症免疫
Deep Science预印本
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.