Science advance | 跨灵长类预测框架，用人的数据训练模型预测猴？|细胞|变异|序列|黑猩猩

Science advance | 跨灵长类预测框架，用人的数据训练模型预测猴？

分享至

认知神经科学前沿文献分享

基本信息

Title:Cross-species prediction reveals chromatin regions with increased accessibility in humans

发表时间:2026-04-15

发表期刊:Science Advances

获取原文:

1. 添加小助手:PSY-Brain-Frontier即可获取PDF版本

引言

人与黑猩猩等近缘灵长类在基因组上高度相似，却在脑体积、骨骼形态、体脂分布以及部分疾病易感性上表现出清晰差异。正因为蛋白编码区差异并不大，越来越多研究把目光转向非编码调控区域：真正推动人类特异性状出现的关键变化，可能并不主要来自“基因写了什么”，而是来自“基因何时、何地、以多大强度被打开”。开放染色质区域（open chromatin regions, OCRs）正是这类调控活动的重要入口，因为它们往往对应启动子、增强子等活跃调控元件。

不过，这个问题长期受制于一个现实瓶颈。传统比较基因组学擅长利用保守性和进化速率寻找候选区域，例如人类加速区域，但它难以直接说明这些序列究竟在哪些细胞类型中发挥作用，也无法直接判断它们是否真的改变了染色质可及性。另一条更直接的路，是跨物种比较 ATAC-seq 等功能组学数据，但非人灵长类样本本就稀缺，组织与细胞类型覆盖也有限，已有工作往往集中在少数脑组织，难以扩展到更广泛的人体细胞图谱。

实验设计与方法逻辑

作者的设计分成递进的三步。前一层是验证跨物种预测是否成立：利用人、黑猩猩、猕猴的 bulk ATAC-seq 数据，以及脑 Brodmann 区 6 类细胞的 single-cell ATAC-seq 聚合数据，比较“各物种独立训练模型”和“仅用人类训练后跨物种预测”的表现，并结合 integrated gradients 分析模型学到的转录因子基序是否跨物种一致。中间一层是把模型分数与真实差异对接：在人类 OCR 的同源序列上计算人类与猿类之间的预测差值 ΔPr，并检验其对实验定义的人类可及性升高区域的富集。

核心发现

发现一：仅用人类数据训练的 CNN，在近缘灵长类中仍能稳定预测染色质可及性

全文最关键的前提，是跨物种预测本身足够可靠。Figure 1A-B 显示，在淋巴母细胞系和前额叶胶质细胞等 bulk ATAC-seq 数据中，各物种独立训练模型在整条测试染色体上的 AUROC 多数高于 0.9，而仅用人类训练的模型拿去预测黑猩猩和猕猴时，AUROC 与 AUPRC 几乎没有明显下降；在单细胞聚合数据上，Figure 3A 也呈现出相近结论。这说明模型捕捉到的并不只是人类样本的局部特征，而是近缘灵长类共享的调控序列规律。

Figure 1. Cross-species prediction of chromatin accessibility by CNNs

Figure 3. Cross-species predictive performance of the CNN on single-cell ATAC-seq

发现二：跨物种预测差值 ΔPr，与实验测得的人类可及性升高存在稳定统计关联

模型能跨物种预测，并不自动意味着它能反映物种间真正的调控差异。Figure 2A 的价值就在于把“预测分数”与“实验差异”接了起来：在人类 OCR 的同源序列比较中，人类特异 peak 的 ΔPr 明显高于共同 peak。以淋巴母细胞系为例，人-黑比较中人类特异 peak 的平均 ΔPr 为 0.03，而共同 peak 为 0.004；人-猕猴比较分别为 0.11 与 0.01。

Figure 2. Prediction performance of the CNNs on orthologous sequences

发现三：作者在 111 种细胞类型中系统识别出 hPICAs，这些区域更偏向核心调控元件并呈现选择信号

在前两步基础上，论文真正的核心产出体现在 Figure 4。作者基于 111 种成人人类细胞类型分别训练模型，并将人类序列与推断的人类-黑猩猩祖先序列比较，结合 1000 次中性模拟评估显著性，最终以 ΔPr > 0.3 且 adjusted P < 0.05 定义 hPICA。Figure 4B-C 说明各细胞类型模型整体表现稳定，也给出了 ΔPr 的总体分布背景；Figure 4D-F 则展示了这些区域的生物学性质。

Figure 4. Identification and characteristics of hPICAs

发现四：hPICAs 中的人类特异变异更可能通过改变潜在转录因子结合位点影响可及性，并与部分人类性状相关

论文最后把分析从“区域层面”推进到“变异层面”和“表型线索层面”。Figure 5A 显示，与 non-hPICAs 相比，hPICAs 中的人类特异单核苷酸变异和插入更常落在潜在细胞类型特异转录因子结合位点上，而删除不显著；Figure 5B 进一步表明，这种位点重叠在 hPICAs 中甚至高于传统由保守性定义的人类加速区域（HARs），提示 hPICAs 更偏向捕捉可能真正改写调控输出的变异。

Figure 5. Features of genetic variants from ancestors to humans within hPICAs

归纳总结和点评

这项研究最突出的贡献，不只是证明“人类数据训练的模型可以跨灵长类预测染色质可及性”，而是把这种可迁移性真正转化为一套可用于人类演化研究的发现框架：作者在 111 种细胞类型中系统识别出 23,414 个 hPICAs，显示这些区域更具细胞类型特异性，更偏向启动子和增强子，并带有统计上的选择信号；同时，区域内的人类特异变异更可能落在潜在转录因子结合位点上，并与骨量、体脂等性状相关区域相连。它的意义在于，为非人灵长类表观组数据稀缺这一长期难题提供了一条现实可行的替代路径，把深度学习、祖先序列推断和功能注释整合起来，用于定位可能参与人类特异性状形成的非编码调控变化。但边界也同样清楚：hPICAs、本体变异效应以及与具体表型的联系，目前仍主要建立在计算预测和统计关联之上，距离“已被证明的功能机制”还有一步，后续仍需要报告基因、CRISPR 扰动和等位基因比较等实验进一步验证。

请打分

这篇刚刚登上 Science Advances 的研究，是否实至名归？我们邀请您作为“云审稿人”，一同品鉴。精读全文后，欢迎在匿名投票中打分，并在评论区分享您的深度见解。

分享人：BQ

审核：PsyBrain 脑心前沿编辑部

你好，这里是「PsyBrain 脑心前沿」

专注追踪全球认知神经科学的最尖端突破

视野直击 Nature, Science, Cell 正刊及核心子刊与顶级大刊

每日速递「深度解读」与「前沿快讯」

科研是一场探索未知的长跑，但你无需独行。欢迎加入PsyBrain 学术社群，和一群懂你的同行，共同丈量脑与心智的无垠前沿。

点击卡片进群，欢迎你的到来

一键关注，点亮星标 ⭐ 前沿不走丢！

一键分享，让更多人了解前沿

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.