为了研究广东省人群的肠道菌群特征,构建广东省人群的肠道菌群健康基线(Baseline),本文作者开展了广东省肠道微生态计划(GGMP, Guangdong Gut Microbiome Project)。此次计划收集了广东省内14个不同区域(湛江市、茂名市、云浮市、肇庆市、清远市、曲江县、南雄市、佛山市、广州市、深圳市、惠州市、梅州市、汕尾市、揭阳市)的7009份粪便样本,并收集了对应样本72种不同类型的表型信息。
对全部样本进行16S测序分析,结果表明样本生活的区域是造成样本间差异最主要的原因。无论是在健康人群还是病人中,区域都是造成差异的主要原因。
对于文章中设计的四种代谢疾病:二型糖尿病、代谢综合征、肥胖和脂肪肝,很难将一个地区得到的疾病预测模型推广到其他地,但在自身区域中应用能得到较好的效果。
表明不同疾病模型在推广到其他区域的普适性存在差异,在构建菌群-疾病预测模型时需考虑研究疾病的推广普适性。
关键字: 肠道微生物,地区差异,疾病预测模型,16S
Title: Regional variation limits applications of healthy gut microbiome reference ranges and disease models
DOI: 10.1038/s41591-018-0164-x
Journal: nature medicine [IF: 32.621]
First Authors: Yan He
Correspondence: Wen-Jun Ma, Hong-Wei Zhou
Affiliation: Division of Laboratory Medicine, Zhujiang Hospital, Southern Medical University, Guangzhou, China
Published: 2018-08-27
1
摘要
① 区域是导致样本间微生物组成差异的主要原因
② 利用单个地区的微生物biomarker构建的疾病预测模型推广到其它地区效果较差
③ 在自身范围内应用微生物biomarker构建的疾病预测模型效果较好
④ 不同代谢疾病基于肠道微生物构建的疾病预测模型的区域普适性存在差异
2
研究背景
在早期研究中,已比较过西方工业化人群和非工业化地区人群的肠道微生物,发现这些群体的肠道微生物特征存在显著差异。
之前的大部分项目都只在小规模样本中研究了不同地区的健康基线(Baseline)和疾病预测模型的普遍性。大规模的样本研究难以进行,主要受到以下三点影响:
1.微生物测序结果受到不同测序/分析方法的影响甚至超过样品本身的差异;
2.预测模型会受到各种外界因素的影响,例如药物;
3.人类的肠道微生物变化较大,需要大量样本才能得出可靠结论。
基于以上原因,文章中设计在特定的区域进行区域化研究,并使用统一的标准化实验/分析方法,希望得到区域内普适性较高的健康基线和疾病预测模型。
3
研究思路
图1 项目的整体设计
图2 项目的收样区情况
文中按嵌套研究设计(nested study design)进行取样,对于14个区域(district),每个区域随机选择3个地区(neighborhood),每个地区随机选择2个社区(community),每个社区随机选择45户居民(household)。以保障取样的随机性和样本对本地区的代表性。最终84个社区内接触了14102个人,调查了9172个人,最终共收取了7009份粪便样本。
对于全部样本,收集了72种不同的样本信息,包括基础测量信息、社会经济状况、生活方式、生化指标、生活区域、疾病、药物治疗和粪便表型等类型信息。具体见下表1。
表1 研究中设计收集的样本信息类型
疾病 1型糖尿病;2型糖尿病;IBS;便秘;便秘时长;代谢综合征;胆囊炎;动脉粥样硬化;腹泻;腹泻时长;肝结石;急性呼吸窘迫综合征;结肠炎;类风湿关节炎;慢性阻塞;肺病;强直性脊柱炎;缺血性中风;肾结石;痛风;胃炎;哮喘;心房颤动;心肌梗塞;银屑病;脂肪肝 统计 伦理;年龄;性别 人体测量学 BMI;身高;收缩压;舒张压;体重;心率;腰围 社会经济状况 工作;婚姻状况;教育 生活方式 抽烟;低酒精度的酒;动物油;高酒精度的酒;谷物;果汁;红酒;黄米酒;酱;酱油;米酒;啤酒;软饮料;牲畜肉;蔬菜;水果;睡眠时间;糖;味精;休息时间;盐;植物油 生物化学 甘油三酸酯;高密度脂蛋白;低密度脂蛋白;空腹血糖;尿酸;血红蛋白;总胆固醇 位置 区域 药物治疗 合生元;抗生素;药物治疗
4
研究结果
4.1 区域是导致样本间微生物组成差异的主要原因
在文章设计的72个样本表型信息里,有51个与样本间肠道微生物的差异有显著关联。样本所在地区、年龄、Bristol粪便类型、BMI、舒张压、甘油三酯水平和尿酸水平是影响样本之间差异最主要的因素。其中样本所在区域的影响最为强烈。在全部健康人间,样本所在区域也是造成差异的主要因素。在病人中,所有在病人和健康人间显著差异的OTU都在不同区域间存在显著差异,同时差异的倍数比病人和健康人之前的差异倍数高很多。地区因素在14个区域中的13个,42个地区的25个中都是导致差异的主要因素,因此可以确定地区的差异来自于更小的地理层级,即在社区级别已经产生。
图3 导致差异的主要因素的Adnois结果
4.2 利用单个地区的微生物biomarker构建的疾病预测模型推广到其它地区效果较差
文中研究了二型糖尿病、代谢综合征、肥胖和脂肪肝四种疾病,这四种疾病的区域推广的普适性都很差,将一个区域的疾病模型推广到其他区域的分类效果与随机分类效果类似。整体的平均AUC从0.7左右下滑到0.5左右。
图4 四种疾病在14个区域中在自身中验证疾病分类模型得到的AUC与在其他区域验证疾病分类模型得到的AUC之间的变化
4.3 在自身范围内应用微生物biomarker构建的疾病预测模型效果较好
文中提出两种模型推广模式,外推(extrapolation)和内插(interpolation),外推即应用自身模型在其他区域,内插即在自身范围内验证模型。利用代谢综合征的数据,文中提出内插的情况模型预测效果更好,同时在越小的地理范围内,效果越好。如图5所示,在最小的地理范围级别(社区里),内插的AUC平均值为最高。
图5 在不同地理区域范围得到的代谢综合征预测模型的内插AUC和外推AUC统计结果
作者以此提出一个原则:将从一个地区得到的疾病预测模型推广到其他地区得到的分类效果很差。但如果在一个较小的区域里应用由本区域内的数据得到的疾病预测模型会得到较好的分类结果。在一个较大的范围里应用该范围内数据得到的疾病模型会得到介于前面两者之间的效果。
图6 研究区域范围大小,内插或外推模型对推广疾病预测模型难易程度的影响
4.4 不同代谢疾病 基于肠道微生物构建的疾病预测模型的区域普适性存在差异
先前研究认为炎症性肠病(IBD)和结肠直肠癌(CRC)基于肠道微生物构建的疾病预测模型可以在不同人群之间使用,可能是因为它们对肠道微生物群变化的大小影响大于代谢紊乱的影响。本文中没有说明这两种疾病,因为它们的样本数在本研究中太少而不能产生可靠的结果。但本文中涉及的四种疾病(二型糖尿病、代谢综合征、肥胖和脂肪肝),已在上述内容中证实无法很好的在区域之间推广。
5
讨论与总结
总的来说,这些数据表明地区差异对人类肠道微生物群的差异产生了强烈影响,这能部分解释其他小规模研究中得到的不一致结论。虽然很难在不同地点之间通过外推的方法推广疾病预测模型,但从更大区域上得到的训练集,通过内插的方法可能可以实现模型在较大区域上的应用。
在美国的American Gut Project中并没有发现显著的地区影响,但在欧洲的数据中发现了地区因素的影响,可能是由于AGP没有对样本进行分层抽样。
导致地区差异的原因是宿主特异性还是其他的生态过程,需要更多的研究才能确定。由于本文的取样地区人群种族统一(99%为汉族),所以这个项目没有考虑种族,但并不代表种族和地区影响不存在关系。
总之,文章建议在进行研究时要建立统一相同的收样、分析流程。在测试新的疾病预测模型时必须考虑模型在其他人群中的普适性。在进行分析时,必须详细说明疾病和健康人群的数据情况,以方便他人在使用数据时进行评估。
6
M 菌的彩蛋
本文还和读者分享了一些大规模人群研究中一些实验的小tips,这里M菌整理一番分享给大家。
高丰度变形菌源于何处?
实验过程中发现测序的样本与同地区其他医院的样本相比出现了高水平的变形菌(Proteobacteria)(图7a),之前的文章报道如果不在低温下储存运输粪便样本会导致高水平的变形菌。为了探究高变形菌的来源,设计了如下实验:随机选取两个人的样本,每个样本分为12份。6份立即处理,另外6份分别储存在不同的三个冰箱24小时,然后再处理。对这24份样本进行测序分析,结果显示立即处理和储存再处理的样本之间变形菌丰度没有显著差异(图7b)。
图7 针对高变形菌丰度所做的实验结果
是否有batch effect或PCR偏好性?
添加来自三个不同donor的外源的标准样品(external standard samples),和全部样本进行同样的操作,测序分析之后,对这些样品的丰度结果进行PCoA分析,观察到样品的聚集只和来源的donor相关,与测序的批次(batch)、PCR的operator和PCR machine都没有关联。
图8 外源标准样品的PCoA图,左图颜色表示不同donor,中间颜色表示不同的PCR operator,右图颜色表示不同的PCR machine
不同DNA提取试剂盒对结果有 影响吗?
利用两种不同的试剂盒处理测序同一样本,比较它们的PCoA和丰度结果,发现两种不同试剂盒处理的样本的结果存在差异。但通过Procrustes analysis、旋转和缩放其中一个PCoA的方法来比较两个PCoA之间的相似程度发现,两种结果相似性很高,即对一批样本,统一用这两种方法中的任何一种,进行分析的结果应该基本一致,但如果混合两种试剂盒结果则会在结果里引入新的bias。
图9 两种试剂盒的结果的比较,左图为PCoA结果,中间为物种丰度结果,右图为Procrustes analysis分析,两PCoA间的同一样本会有连线
参考文献
He Y, Wu W, Zheng H M, et al. Regional variation limits applications of healthy gut microbiome reference ranges and disease models[J]. Nature medicine, 2018: 1.
本文转载自公众号:菌探Momics(ID:Momics),如需转载,请与原作者联系。
第三届GCTA大会报名直通车
【猜你喜欢】
基因组也在玩“P图”? 敢不敢做真实的自己!
Duplicates | NGS帝国的Agent Smith
UK Biobank公布华大自主平台WGS数据
【近期热文】
生命大数据走向何方?20+重磅嘉宾解读新纪元|第三届GCTA日程发布
重磅!华大发布最大规模中国人基因组学大数据研究成果
百元外显子,一网打尽才威武!
Small RNA这样建库,定量更精准!
请继续关注“华大科技BGITech”公众号,
科技君将一如既往地为您提供精彩内容!
如有相关问题,欢迎后台留言~~
▼
关注华大科技,尽享精彩科研!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.