AI赋能虚拟空间蛋白组学，Cell、Nature Medicine论文复现及原理全解析|配准|模态|cell

分享至

在生命科学快速发展的今天，空间组学让我们看到细胞在组织中的位置与状态，而AI 大模型则进一步打破了实验与计算的边界，让我们有机会从一张普通病理切片中预测空间蛋白和分子信息。

本次培训将系统学习从多模态配准到模型训练、推理和课题迁移的完整流程，重点理解 AI大模型项目是如何从任务定义、数据配对、输入输出设计、训练优化到结果评估，真正学会搭建属于自己的 AI 大模型。

不仅看懂顶刊、复现顶刊，更能举一反三，把“会用模型”真正升级为“会搭建自己 AI 大模型”，把 AI 大模型沉淀成服务自己课题和成果产出的核心竞争力。

论文介绍

本次复现的两篇论文如下

论文链接：https://doi.org/10.1038/s41591-025-04060-4

论文链接：https://doi.org/10.1016/j.cell.2025.11.016

课程特色

1.真正学会搭建自己的AI大模型：

不是只学会调用现成大模型，而是系统掌握从任务定义、数据配对、输入输出设计，到大模型训练、调参、评估和模型推理的完整搭建逻辑。

2.两篇顶刊复现与模型构建双线并进：

既复现CELL、Nature Medicine等顶刊文章的核心流程，又理解模型如何产生结果、如何支撑机制与结论，打通“论文复现 → 方法理解 → 模型构建”。

3.多模态全流程打通（图像 × 单细胞 × 空间）：

从H&E病理图像、CODEX多通道数据，到单细胞表达矩阵构建，再到空间映射与模型训练，完整打通图像 → 分子 → 空间 → AI建型，真正建立跨模态整合能力。

4.可直接迁移到自己课题：

强调如何把病理预测空间蛋白、虚拟mIF、预后建模等思路迁移到自己的数据和研究中。

5.直播授课 + 录屏回看 + 长期答疑（一对一指导 + 包教包会）：

直播带跑、课后录屏反复看，资料包（代码/讲义/数据）全配齐；团队七名全职答疑助理，即使课程结束，一对一指导答疑不结束，真正做到包教包会。

课程时间

一个半月系统教学，实打实包教包会

每周三、周五、周日晚19:00-22:00

（注意：错过直播可以看录播补上，看录播过程中遇到问题也是七名助理一对一指导答疑）

共二十二节课：十八节精讲课，四节零基础编程教学课

课程核心模块

课程总体分为四个模块：

零基础学习python编程四节课：课程适合完全零基础“小白”报名

Nature Medicine 复现十节课：AI大模型如何用H&E病理切片预测空间蛋白

CELL 复现四节课：AI如何用病理切片生成虚拟mIF（多重免疫荧光）

TCGA公共数据库四节课：病理切片公共数据挖掘（自己病理数据也可以挖掘）

模块一：课前预热四节课

第1节：Python环境搭建
1.Spyder和Anaconda软件安装（Windows、Linux、Mac）
2.Conda环境管理和镜像设置
3.用conda和 pip安装python包/库的安装方式
4.Jupyter Lab安装和使用

第2节：Python编程语言入门

1.Python的缩进、命名规范（变量、函数、常量的命名方式）
2.包和模块的基本概念，import的三种写法
3.对象属性与方法的调用
4.自定义函数def：参数、返回值、位置参数/关键字参数
5.条件语句和循环语句

第3节：Python数据结构进阶

1.列表、元组、字典、集合基本数据结构的系统讲解

2.生成和索引、增删改查、列表排序、统计和去重

3.矩阵的新建和行/列取子集，布尔索引（使用numpy）

4.数据框的新建、行列选择、数据类型转换（使用pandas）

第4节：seaborn和matplotlib绘图（数据可视化）
1.matplotlib基本绘图流程
2.seaborn常用图：histplot、boxplot、violinplot、barplot、heatmap
3.使用 plotnine（ggplot风格）绘图
4.自定义颜色+配色，图片设置、拼图和图片保存

模块二：Nature Medicine 复现：AI大模型如何用H&E病理切片预测空间蛋白

第一讲：掌握病理图像与 CODEX（多重免疫荧光空间成像）超大图像

1.掌握H&E 图像的文件结构与基础读取，理解OME-TIFF 的底层结构

2.病理大图多级分辨率金字塔与超大图像按需读取，实现效率与精度的平衡

3.CODEX 多通道图像的高维结构，通过 XML 解析提取通道

4.空间多通道融合与共定位，单通道增强、伪彩融合可视

第二讲：数字病理切片图像和CODEX 多模态图像对齐

1.对齐前基线建立，明确 H&E 与 CODEX/IF 在配准中的角色

2.理解 Palom 的核心数据流与参数体系以及Aligner 构建

3.缩略图级粗对齐与仿射矩阵中缩放和平移

4.分块精对齐与局部位移场优化，理解局部位移计算、异常位移约束

5. 配准结果输出、质量控制与效果评估、图像增强

第三讲：掌握H&E 与 DAPI 两种模态细胞核分割，将 CODEX 质心映射到 H&E 坐标系

1.StarDist 预训练模型选择与双模态细胞核分割

2.细胞核形态特征提取

3.CODEX 质心映射到 H&E 坐标系，掌握基于全局仿射和局部分块仿射

4.最近邻距离分析与亚细胞级配准精度评估

第四讲：配准后单细胞表达矩阵构建与组织空间分布模式

1. 双模态图像读取，从细胞核到细胞区域的单细胞边界划分

2.多通道 CODEX 强度转化为 scRNA 的 cell × gene 表达矩阵

3.单细胞矩阵的指控、标准化、降维与聚类分析

4.局部空间回投与 Marker基因空间展示，完成组织空间分布模式

5.掌握全切片图像预处理与智能切块全流程

第五讲：复现Nature Medicine论文WSI 与 CODEX 处理流程

1. 双模态数据读取，H&E 全切片预处理与 40x 统一标准化

2. 伪影的多层质控体系过滤与高质量 Tile 筛选策略

3. H&E 染色标准化与 Tile 级特征提取

4.CODEX 通道归一化与 Tile 表达矩阵构建

第六讲：HEX 模型训练，从训练数据准备到模型微调与性能评估

1. HEX大模型的训练数据格式转换与标准化组织，包括图像转换、蛋白标签以及命名规范统一。

2. 配对数据质控与训练前完整性验证，确认图像内容与标签信号的生物学一致性

3.HEX 训练流程与输入数据对接，掌握从数据准备完成到正式进入模型训练的完整衔接逻辑。

4.模型训练参数微调，包括冻结骨干网络、解冻末层、鲁棒损失函数和 Checkpoint 保存等关键训练参数

5.HEX 模型性能评估：结合 Pearson 相关系数、MSE 等结果，判断模型在不同蛋白通道上的预测能力与可用性。

第七讲：HEX 大模型推理：从 H&E Patch 到 40 通道虚拟蛋白预测

1. 输入H&E的Patch理解，建立模型任务对输入形式和图像预测蛋白表达的认知

2.系统理解 HEX 的整体网络结构，掌握 MUSK 视觉编码器作为病理特征的作用

3. 推理前预处理与标准化，确保输入数据能够正确送入模型。

4.完成从单张或多张 H&E Patch 到 40 维蛋白表达向量的批量推理

5. 将模型输出整理为预测矩阵、预测结果展示与生物学解读

第八讲：HEX的AI大模型WSI高分辨率虚拟蛋白生成与空间可视化

1. 全切片推理任务设计与关键参数配置

2. 掌握全切片虚拟蛋白预测结果的存储架构

3.AI大模型在 WSI 上的高分辨率推理流程

4.通过伪彩融合和色调映射生成论文级虚拟蛋白空间表达图谱

5. 全通道浏览，比较不同免疫、基质和肿瘤相关标记物的共定位，形成对全切片空间微环境的整体理解

第九讲：从Nature Medicine复现到HEX大模型构建，学会搭建自己的 AI 大模型（真正学会举一反三，如何搭建自己的AI大模型，也是本次课程内容的核心）

1. 理解真正的 AI 大模型项目完整的搭建流程，从“脚本层面”深入到“项目层面”

2.掌握AI 大模型项目真正的骨架，图像格式理解→ 多模态图像配准→ 单细胞分割与空间映射→ WSI 预处理与高质量 patch 生成→ 模型输入输出定义→ HEX 模型训练/推理→ 虚拟蛋白生成

3.AI大模型搭建的八步法：大模型从任务定义、数据训练配对、原始数据标准化、空间对齐、特征构建、模型训练、模型性能评估、多模态融合

4.理解大模型搭建策略：先选问题、找输入、找标签、建立输入输出配对关系、选训练策略、设计评估体系、落到科学问题

5. 建立渐进式训练思路，从小样本快速跑通流程，再逐步过渡到正式训练和微调，兼顾效率、稳定性和模型性能。

第十讲：如何把Nature Medicine的思路迁移到你自己的课题

案例1：HE切片预测 IHC，实现从组织形态到虚拟 IHC 染色图谱的预测

案例2：病理切片预测空间转录组，训练模型从病理形态中推断基因表达或功能模块的空间分布。

案例3：病理图像 + 临床做预后预测，将 WSI 提取的图像特征与年龄、分期等临床变量融合建模，输出患者风险评分并完成生存预后预测。

案例4：单细胞图谱辅助构建图像标签，，训练模型从病理形态中识别组织微环境特征。

CELL 复现：AI如何用病理切片生成虚拟mIF（多重免疫荧光）

第十一讲：多级精配准，从初步对齐到亚像素级 ROI 精细配准

1. 双模态全图读取与高质量 ROI 自动筛选

2. H&E RGB ROI和CODEX DAPI ROI 裁切与配准输入构建

3. 三级渐进式配准策略：Rigid、Non-Rigid 与 Micro

4. 配准质量控制、多层次配准结果可视化与形变场解析

第十二讲：CELL主刊GigaTIME大模型复现与自定义 WSI 局部推理

1.CELL主刊样例数据预处理与二值掩码解包，理解多通道蛋白信号的存储机制

2. 非细胞区域过滤与激活密度定量评估，量化预处理对不同蛋白通道的影响。

3. 自定义 WSI 读取与组织区域自动定位，建立从全切片到局部分析区域的标准化入口。

4. ROI Patch 网格提取与第一轮全通道推理，识别该区域高激活蛋白通道

5.通道空间热图重建与局部空间模式解析，揭示蛋白表达与组织形态之间的空间对应关系。

第十三讲：GigaTIME 大模型全面解析

1. GigaTIME 的任务目标与从输入病理图像到输出多通道空间预测结果的整体框架

2. 模型结构解析：从编码到解码，系统拆解 GigaTIME 的网络主体结构。 3. UNet 架构在空间预测中的作用，深入理解 UNet 在局部空间信息保留、多尺度特征融合和像素级预测中的优势与适用性。 4. 损失函数与模型优化，掌握损失函数如何约束模型学习，理解其在提升空间定位精度和表达强度预测能力中的作用。

第十四讲：最小可运行测试与训练：端到端流程验证

1. 从预训练权重到推理评估，完成预训练模型加载，验证模型环境、数据接口和推理流程是否能正常跑通。 2. 测试指标解读：理解 Dice 系数和 Pearson 相关系数的意义，学会从测试结果中判断模型的空间重叠能力和连续值预测能力。 3. 通过最小训练实验走通训练、验证和指标记录的完整流程，建立先验证后扩展的工程化思维。 4. 训练结果输出与历史曲线分析，掌握 checkpoint、training history 等训练产物的含义，并学会判断训练是否朝着正确方向进行。

TCGA公共数据库病理切片挖掘（自己病理数据也可以挖掘）

第十五讲：TCGA 队列构建、临床数据解析与 WSI 预处理

1. 掌握TCGA公开临床数据和病理切片的标准化下载流程

2. 生存信息与关键临床变量提取，包括生存时间、删失状态及年龄、性别、TNM 分期等等

3. 临床数据标准化解析与建立 slide_id 与 case_id 的准确映射关系

4. LUAD/LUSC 队列结构检查与数据完整性质控

5. 理解WSI 多倍率坐标切片预处理，掌握从全切片生成 20x 与 40x 两套坐标的流程

第十六讲：TCGA病理切片特征提取与训练数据准备

1.掌握从坐标读取、Patch 提取到双流特征生成的完整流程

2. WSI 形态特征与虚拟蛋白特征的结构解析

3.双流特征规模对比与多模态信息互补，每张切片的双流特征与生存标签准确关联，完成标准化训练数据集构建

4. 训练数据整理与交叉验证划分，掌握按 case_id 分组的 K-Fold 划分策略

第十七讲：生存预测模型训练与 Kaplan-Meier 评估，从跨癌种泛化到临床风险分层

1.双流生存模型训练与跨队列验证，掌握双流形态特征与虚拟蛋白特征融合建模。

2.模型输出的风险分数与生存时间、删失状态和临床分期等变量整合分析

3. C-index 与早期分期亚组的模型性能评估

4. Kaplan–Meier 生存曲线与风险分层验证，评估模型的生存分层效果

第十八讲：虚拟蛋白下游分析：生物标志物关联、病理分期与生存预测

1. 下游分析数据体系与整体框架搭建，探索性分析和临床分析中的适用场景。

2. 蛋白-生物标志物关联分析，通过虚拟蛋白与已知分子标志物之间的关联，验证有生物学合理性和分子层面的解释

3. 虚拟蛋白与病理分期的关联分析，探索虚拟蛋白在反映肿瘤进展阶段和组织异质性中的潜在价值。

4. 单个蛋白生存分析：基于 Kaplan–Meier 曲线和 Cox 回归，逐通道筛选具有预后分层能力的虚拟蛋白标记物。

5. 多蛋白 Signature 构建与生存分析，将多个虚拟蛋白通道整合为多维特征，通过 K-means 聚类识别不同免疫微环境亚型

课程费用

课程费用**** 元/人

团体报名享优惠，两人报名九折，三人八五折，含讲义、代码、数据等完整资料包

团队七名全职答疑助理，安装等实操过程中有问题全程答疑

扫码加微信咨询课程

也可以搜索微信添加： huage5389

合作机构

华哥科研平台

授课理念：将CNS文章的新技术学懂（理解）、学会（会敲代码分析）、学透彻（站在课题顶层设计角度理解）、学以致用（用到自己的标书申请和文章发表中）。

初心使命：普及前沿技术，服务科研一线，赋能创新突破，助推生命科学进步

主讲老师（一）

杨奕涛，东京大学医学科学研究所助理教授，日本学术振兴会（JSPS）特别研究员，长期深耕深度学习算法、医疗AI与空间组学交叉领域，积累了丰富的科研实践经验；现致力于多模态融合、生物医学基础大模型开发及转化医学相关算法研究。发表Nature Communications等SCI期刊发表论文多篇；与中日及欧美顶尖计算生物学实验室深度合作，参与多项国际前沿科研项目，致力于以人工智能驱动生命科学新发现。

主讲老师（二）

张振华，华哥生信创始人，目前在东京大学从事医学人工智能研究。深耕单细胞多组学、空间转录组与机器学习领域6年，培养学员3万余人 ; 指导学员发表CNS主刊文章18篇、一区及子刊100余篇 ; 参与国自然重点、国家重大专项、孔雀计划等项目申报;合作院士团队及国际顶尖实验室，发表SCI论文26篇（Sci.Adv、 Mol Cell、 PNAS、 JACS、NC、 Cell Rep Med、Mol Cancer、EMBO Mol Med等顶刊）。

课程收获

1. 学会搭建属于自己的AI大模型
真正掌握从任务定义、数据准备、输入输出设计，到模型训练、调参、评估和模型推理的完整流程，而不是只会调用现成模型。

2. 掌握顶刊级AI大模型复现能力
能够系统复现CELL、Nature Medicine等文章中的核心流程，理解每一步是怎么做出来的、为什么这样做。

3. 打通图像到分子的完整分析
学会把H&E病理图像、多模态配准、空间蛋白预测、单细胞表达构建和下游分析连成一个完整闭环。

4. 具备迁移到自己课题的实战能力
能够把课程中的思路和流程迁移到自己的病理数据、空间组学数据或临床研究中，真正服务课题设计和文章发表。

5. 建立 AI大模型项目化思维
不再只是会跑代码，而是学会从顶刊思路中提炼研究框架，具备独立设计AI项目、分析结果和产出成果的能力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.