(1)Chao1:是用chao1 算法估计群落中含OTU 数目的指数,chao1 在生态学中常用来估计物种总数。Chao1值越大代表物种总数越多。
(2)Shannon:用来估算样品中微生物的多样性指数之一。它与 Simpson 多样性指数均为常用的反映 alpha 多样性的指数,为群落丰富度的定量度量,即包括丰富度richness和均匀度evenness两个层面。Shannon值越大,说明群落多样性越高。
(3)Observed species指数:是指样本中实际测定得到的OTU数量,衡量样品中OTU丰富度(Richness)的指数(种类丰富度维度),是群落丰富度的定性度量,只包括丰富度.
(4)Faith’s Phylogenetic Diversity:是基于系统发生树来计算的一种多样性指数,它用各个样品中OTU的代表序列计算出构建系统发生树的距离,将某一样品中的所有代表序列的值加和,包含特征之间的系统发育关系的群落丰富度的定性度量。
2、β多样性
β多样性度量时空尺度上物种组成的变化, 是生物多样性的重要组成部分, 与许多生态学和进化生物学问题密切相关。β多样性指数描述样本间(或组间)多样性,通常将其与降维方法结合使用,降维方法有主坐标分析(PCoA)、非度量多维尺度(NMDS)或限制性主坐标分析(Constrained PCoA)等。使用QIIME2、R语言的vegan包可以进行β多样性分析,并以散点图的方式可视化。这些β-多样性指数之间的差异可以用置换多元方差分析(PERMANOVA)进行计算(vegan包中adonis函数)。
常见β多样性指数有:
(1)Jaccard距离:根据0-1丰度表计算(样本特有物种数量/物种总数),描述物种组成差异,群落差异的定性度量,即只考虑种类,不考虑丰度;
(2)Bray-Curtis距离:根据均一化的丰度表计算,描述物种丰度差异,是群落差异的定量度量;
(3)加权UniFrac:根据0-1丰度表和进化树计算,描述两个样本细菌系统进化差异,UniFrac的大小主要与样本特有物种有关,包含特征之间的系统发育关系的群落差异定性度量;
(4)非加权UniFrac:根据均一化丰度表和进化树计算,描述丰度加权后的系统进化差异,包含特征之间的系统发育关系的群落差异定量度量。
图2吸收不良患者的肠道细菌改变(Kiana et al. Gut 2020)
3、物种组成分析
物种的分类学组成(Taxonomic composition)描述了微生物群落中存在的微生物类群,通常使用堆叠柱状图、热图进行门或属水平的可视化(也可以使用冲击图、和线图展示)。
4、微生物差异分析
差异比较的结果可以使用柱状图、火山图或曼哈顿图可视化。由于组成型特征的相对丰度增加的同时伴有其他特征减少,这种数据的分析易于产生假阳性。有研究已经开发了几种方法来获得样品中的分类学绝对丰度,例如HTS结合流式细胞计数和“HTS+内参质粒+qPCR”的方法 。
图3 发酵饮料Kefir对肠道菌群的影响(Marcel et al. Microbiome 2020)
5、微生物相关性分析
6、网络分析
根据各个物种在各个样品中的丰度以及变化情况,计算物种之间的相关性,包括正相关和负相关。网络分析从整体角度探讨了特征的共现性关系(共发生或共排除关系)。相关网络的属性可能表示同时出现的分类单元或功能路径之间的潜在相互作用。相关系数和P值的计算可使用语言R中的cor.test函数,或者用专门为稀疏型微生物组数据开发的SparCC包分析。网络分析可以使用R语言igraph包、CytoScape、Gephi等软件进行可视化。
图4 优势类群微生物共生模式(Bin et al. Microbiome 2020)
7、机器学习构建预测模型
机器学习是人工智能的一个分支,核心是“用算法解析数据,从中学习,然后对某些事物做出决定或预测”。在微生物组研究中,机器学习用于特定特征的物种分类、β多样性分析、分箱和组成分析(compositional analysis)。常用的机器学习方法包括随机森林,Adaboost和深度学习等,他们可以用于“分类”(应变量为分类变量,比如患病和未患病)和“回归”(应变量为连续型变量,如时间)。随机森林是一种基于决策树的高效的机器学习算法,属于非线性分类器,因此可以挖掘变量之间复杂的非线性的相互依赖关系,找出能够区分两组样本间差异的关键成分(OTU或物种)。随后可以通过受试者工作特征(ROC)曲线来确定那种菌(群)具有最佳的诊断价值。
8、进化树图
树图被广泛用于微生物组系统发育树或物种层级分类注释的可视化。扩增子的代表性序列均为同源序列,非常适合于系统发育分析。IQ-TREE可以快速构建高可信度的系统树,并。还可以使用GraPhlAn构建高颜值的系统发育树或层级分类分支图(Cladogram)。
9、微生物群基因功能预测
通过对已有测序微生物基因组的基因功能的构成进行分析后,我们可以通过16s测序获得的物种构成预测菌群可能参与的代谢通路,以便能初步讨论菌群组成变化与疾病或表型如何关联在一起。使用最新的PICRUSt2软件,可以获得包括COG、EC、KO、PFAM、TIGRFAM等数据库对菌群的基因功能注释结果。然后使用STAMP软件进行差异分析,得到不同样本组中显著差异的菌群基因功能。
到此,一篇医学微生物组与疾病相关性研究文章的主要结果和图表就基本齐备了。当然,随着统计和分析方法的不断发展,还有许多扩展性和个性化分析结果。例如,想要探明微生物来源,解决诸如肠道菌群起源、河流污染来源以及法医学检测等问题。可以使用FEAST 和SourceTracker 来分析微生物群落的起源。此外,全基因组关联分析(GWAS)可以研究宿主遗传信息与微生物之间的调控关系。
10、注意事项
进行微生物组数据的统计和分析时,要注意分析流程的可重复性。有的出版社会要求作者在出版论文的同时提交原始数据和分析代码,而不仅仅是在文章材料部分描述方法。可重复性对于微生物组分析至关重要,因为如果没有原始数据、详细的样本元数据和分析代码,就不可能重现结果。
同时,实验操作对研究结果的影响远大于选用的分析方法。最好将详细的实验过程记录为元数据,例如采样方法、时间、位置、操作员、DNA提取试剂盒 、批次、引物和标签序列等。元数据可以用于下游分析,而且可以帮助研究者确定是否这些操作差异导致了假阳性结果。
实验中应收集的元数据等信息请参阅和宏基因组序列的最少信息标准”(Field et al., 2008; Yilmaz et al., 2011),“细菌和古菌单个扩增基因组(MISAG)和宏基因组组装的基因组(MIMAG)的最少信息标准”(Bowers et al., 2017),以及。
小结
同时相比于扩增子测序,宏基因组测序的序列信息丰富度更高、物种鉴定更精细,还可以测定菌群携带的基因从而进行差异基因的功能富集分析,但是成本相对更高。具体选择那种测序方法,还是要取决于实验目的和经费。16S测序联合代谢组,也是目前的肠道菌群与疾病关系的主流研究策略。随着这些技术的进一步发展,运用多组学的研究方法可以更全面的挖掘微生物组与人体疾病/健康的关联。
END
征 稿 启 事
“医学方”始终致力于服务“医学人”,将最前沿、最有价值的临床、科研原创文章推送给各位临床医师、科研人员。返回搜狐,查看更多