第 VI 章.群落多样性的计算和测量

最编程 2024-03-05 13:43:02

...

6.1 Vdr−/−小鼠数据集

小鼠肠道微生物组数据(金等人)。(2015年)是从维生素D受体基因敲除(维生素D受体−/−)和野生型(WT)小鼠的粪便和盲肠粪便中产生的，具有454焦磷酸测序。整个数据集包括来自粪便和盲肠位置的5个−/−小鼠样本和3个WT小鼠样本。本研究的总体目的是探讨VDR状态是否调节肠道细菌群落的组成和功能。无效假设是VDR状态和肠道位置与肠道细菌群落的分类改变无关。后测序数据有6个级别的分类单元，包括门、纲、科、目、属和种。为了更好地区分不同样品，本章从属的水平对肠道微生物区系进行了分析。

6.2 群体多样性介绍

群落多样性分析在群落微生物群研究中有着广泛的应用。在整本书中，我们使用术语多样性来表示丰富度，或类型的数量，以及各种多样性指数。为清楚起见，我们通常会将物种或属作为多样性的度量单位，但我们的讨论也可以应用到可操作分类单元(OTU)或任何级别的分类单元。大多数多样性方法都假设数据是对个体的计数。三个水平的多样性(阿尔法多样性、贝塔多样性和伽马多样性)已经成为群落生态学的中心。在微生物群研究中，常用α多样性和β多样性。

Alpha Diversity:惠特克(1960)提出并将多样性划分为不同的组成部分。最广为人知的独特成分是阿尔法多样性和贝塔多样性。α多样性作为基本多样性指标之一，被定义为一个点或一个样本的多样性。它就像是单个人口的汇总统计数据。虽然已经使用了几个略有不同的阿尔法多样性定义，例如Whittaker自己使用的术语既指单个亚基中的物种多样性，也指一组亚基中的平均物种多样性，但阿尔法多样性用于局部多样性。在微生物群研究中，α多样性指的是单个样本或群落内的多样性。

Beta Diversity:微生物群落研究的一个重要目的是确定微生物群落是否可以归类在一起，或者是否需要在细菌中进行分离，以区分治疗与对照、健康与疾病、遗传缺陷与野生型。群落分类问题引导我们度量两个群落样本之间的相似性(β多样性)。“相似性”或“β-多样性”的概念及其测度主要来自生态学等领域。Beta多样性最初由Whittaker定义为跨越环境梯度的多样性变化的度量；换句话说，它是物种组成沿梯度从一个群落到另一个群落的变化率。因此，它反映了当一个人跨越空间或时间移动时的物种更替。β多样性也被称为“物种周转”。一般而言，β多样性评估两个或两个以上局部组合之间或局部和区域组合之间的差异，从而使我们能够阐明一个地方组合有多少多样性是独一无二的，或者描述有多少分类群在群落之间是共享的。微生物组研究人员采用了这些研究中的概念和技术。

Gamma Diversity:在生态学文献中，还有另一种极端的多样性，称为伽马多样性，即一个地区或一个包含几个群落的景观的多样性。在微生物组文献中，伽马多样性很少被使用。因此，在这本书中，我们将重点放在阿尔法和贝塔的多样性上。然而，简单地描述α、β和γ差异之间的关系可能有助于理解α和β差异。实际上，α分集可以被认为是单个样本或观测的分集，伽马分集可以被认为是所有样本组合的分集，而β分集是采样单元沿梯度有多明显的度量。

6.3 Alpha多样性测量与计算

α多样性是生态学、生物群落和微生物群落的基本概念之一。研究人员遇到的基本问题是：现存的物种有多少？当你这样说的时候，你是在描述社区的丰富性。到底有多少物种呢？当你这样说的时候，你是在谈论社区的多样性。当你问到每个物种之间的相对程度如何时？你想知道社区的均匀程度。群落多样性指数将物种丰富度和丰富度合并为单一的均匀度。由一个或几个物种在数量上占主导地位的群落表现出较低的均匀性，而丰富度在物种之间均匀分布的群落表现出较高的均匀性(Gotali，2008)。在微生物组文献中，应用最广泛的是基于种质的Chao1指数(Chao1984)、基于种的定量的Shannon(或Shannon-Wiener)指数(Shannon 1948；Shannon and Weaver 1949)和Simpson‘s指数(Simpson 1949)。将在组中引入CHO1指数和类群数量、Shannon-Wiener多样性、Simpson多样性、Pielou均匀度指数。

Chao 1 Richness Index and Number of Taxa:物种丰富度估计器估计样本或群落中存在的物种总数。这是最古老也是最简单的物种多样性概念。Anne Chao提出了存在/不存在数据的物种丰富度的两个非参数估计器，在文献中称为‘Chao 1’和‘Chao 2。它们在概念上非常相似。CHO1指数是基于在样本(CHO1984)中发现的稀有类(即OTUS)的数量。它通常用于生态学和微生物群的研究。公式如下所示

其中SChao1是估计的物种数量，Sobs是观察到的物种总数，n1是单个分类群(由该群落中的一次读取表示的分类群)的数量，例如在样本中只表示一次的物种的数量(独特的物种)，n2是双重分类群的数量，例如在样本中只表示两次的物种的数量。Chao(1984)指出，这个索引对于偏向低丰度类的数据集特别有用，微生物组数据很可能就是这种情况。然而，从上面的公式可以看出，如果单生类群n1的数量较多，即一个样本中包含许多单生生物，那么很可能存在更多未检测到的OTU，那么CHao1指数将比没有稀有OTUS的样本估计出更大的物种丰富度。在这种情况下，可能存在更多未检测到的OTU，那么CHao1指数将比没有稀有OTUS的样本估计出更大的物种丰富度。在(6.1)中上述Chao_1测度的基础上，Chao还导出了SChao_1(Chao 1987)方差的闭合解：

α多样性是基于原始丰度数据计算的。数据结构应该是样本的行和分类群(如属、种)的列。α分集可以通过几个R包来计算。在这里，我们将使用名为vegan的生态R软件包来估计微生物组文献中最常用的四个阿尔法指数：类群数量、Chao1丰富度、香农均匀度和辛普森指数，使用的是vdr−/−小鼠数据集。

首先，让我们将属丰度数据读入R并加载vegan：

> options(width=65,digits=4)

> abund_table=read.csv("VdrGenusCounts.csv",row.names=1,check.names=FALSE)

> library(vegan)

下面几行的打印显示数据结构是按样本格式分类(在本例中为属)。

在计算各种多样性之前，需要按分类(属)将数据表转换为样本。

非常简单的函数specnumber可以用来查找物种或任何分类群的数量。这里，函数specnumber()用于计算属数。

将样本中存在的分类群(在这种情况下是属)的数量相加是估计多样性的最简单的方法。然而，这种方法忽略了分类群(在这种情况下是属)及其丰富度的一致性，两个非常不同的群落可能是完全相同的。例如，下面的两个群落在计数的分类群数量或分类单元丰富度上是相同的(都有5个分类群)，但显然它们是不同的群落。

我们还可以使用EstiateR()函数估计VDR−/−小鼠数据集中的属数和Chao1指数。我们将得到每个样本中观测到的属的数量，以及估计的Chao1估计器的数量。请注意，Chao1指数只能按整数计算。因此，在只有相对丰度可用的情况下，我们需要将所有计数转换为整数。在Vdr−/−MICE数据集中，读取已经有整数计数，所以我们不需要在这里进行转换。

从上面的矩阵中，我们可以看到函数Estimate R生成了5个索引，其中chao1被列为第二行。因此，我们可以使用以下R码来提取CHO1索引：

Shannon-Wiener Diversity Index：最流行的物种多样性指标之一是香农-维纳多样性指数，标记为H‘。它考虑了每个物种在比例或丰度上的差异。这个指数是以信息论为基础，衡量不确定性：正确预测下一个收集到的个体的物种有多难？香农指数的计算公式为：

信息论是用来衡量不确定度的，所以h‘的值越大，不确定度就越大。香农-维纳测度H‘随着群落中物种数量的增加而增加，理论上可以达到很大的值。实际上，对于生物群落来说，H‘似乎不超过5.0(华盛顿，1984年)。香农的指数“更重视”不太常见的类别(例如，微生物组研究中的稀有物种)。严格地说，信息含量的Shannon-Wiener度量只能用于从已知物种总数的大型群落中随机抽取的样本(Pielou，1966)。我们可以使用vegan包中的多样性函数来计算Shannon-Wiener多样性。或者，我们可以使用基于上述公式的纯R码。这里我们展示了这两种方法。首先，让我们使用diversity()函数，R代码如下所示。

多样性函数的默认索引为Shannon索引，因此可以省略index=“Shannon”。

因为Shannon索引计算是相对于行的。MARGIN=1也可以省略。

现在，我们将使用Shannon-Wiener分集指数公式来说明使用PLAN R码进行计算的过程。由于在上面的公式PI中，物种I在群落中的个体(或相对丰度)的比例，我们使用vegan包中的decstand()函数将每个样本中的计数数据转换为比例。

> # use decostand to convert data into proportions

> abund_table_total<-decostand(abund_table, MARGIN=1, method="total")

MARGIN = 1表示“行”，MARGIN = 2 表示类似矩阵的对象数据(在本例中为abund_table)的“列”；方法=“总”表示除以差额合计(差值=1也是默认值)。通过应用功能解码台，我们得到了样本中属于每个基因的个体所占的比例。然后，我们可以使用Shannon-Wiener指数公式来计算指数，如下所示。

我们可以看到，这两种方法得到了相同的结果。

Simpson Diversity Index：Simpson(Simpson 1949)在1949年提出了一个新的多样性概念，它结合了物种丰富度和均匀性两个不同的概念。新的多样性的非参数度量表明，多样性与随机挑选的两个个体属于同一物种的概率成反比。实际上，新定义的多样性概念是关于物种异质性的(Good 1953)，尽管在生态学文献中这个概念是多样性的同义词(Hurlbert 1971)。对于无限总体，辛普森指数的公式为：

其中PI是物种I在群落中的个体比例(或相对多度)。辛普森指数的范围从0(低多样性)到几乎1。与香农指数相反，辛普森的多样性指数“更重视”更常见的物种。由于异质性同时包含物种丰富度和均匀度，研究人员自然会尝试将均匀度部分与丰富度分开测量。均匀性的零假设是假设群落中的所有物种都是同样常见的。然而，大多数群落包含少数优势种和许多相对少见的物种。均匀性度量试图根据零假设来量化这种不相等的表示。作为物种丰富度的独立衡量标准，文献中提出了许多不同的均匀性(或公平性)衡量标准。在微生物组文献中，已经使用了两种均匀性测量方法。从辛普森指数的倒数出发，给出了辛普森均匀度指数的定义。“辛普森报”的原始索引如下：

其中S是样本中的物种数量。这一指数范围从0到1，相对不受样品中稀有物种的影响。我们可以使用vegan包中的多样性()函数或纯R函数来计算辛普森指数。以下R代码使用多样性()函数。

下面的R码使用辛普森指数公式来计算指数。在使用此公式之前，需要将计数数据转换为比例。

逆辛普森指数可以通过指定方法“invsimpson”或“inv”来计算，如下所示。

Pielou’s Evenness Index：

许多多样性指数，如Simpson多样性、Shannon-Weiner多样性等都考虑了均匀度。然而，研究表明，完全集中在均匀性上的多样性指数充满了问题，包括对物种数量的依赖。Pielou指数的一个特殊问题是，它是一个相对稳定的指数H‘和一个强烈依赖于样本大小S的比率。Pielou指数可以根据我们上面介绍的公式使用specNumber()和多样性()函数来计算，如下所示。

除了上述指数，在一个群落内，还有其他几个估计器，包括基于丰度的覆盖度估计器(ACE)的方法可以用来计算单个种群中期望的分类群的α多样性。

创建多样性指数的数据框：我们可以使用下面的R代码为属的数量制作数据框。> #make a dataframe of number of genera

> N <- specnumber(abund_table)

> df_N <-data.frame(sample=names(N),value=N,measure=rep("Number",length(N)))

以下R码用于制作CHO1指数的数据框。

> #make a dataframe of Chao1 richness

> CH=estimateR(abund_table)[2,]

> df_CH <-data.frame(sample=names(CH),value=CH,measure=rep("Chao1",length(CH)))

以下R码用于制作shannon 指数的数框。

> #make a dataframe of Shannon evenness

> H<-diversity(abund_table, "shannon")

> df_H<-data.frame(sample=names(H),value=H,measure=rep("Shannon",length(H)))

以下R码用于制作辛普森指数的数据框

> #make a dataframe of Simpson index

> df_simp<-data.frame(sample=names(simp_genus),value=simp_genus,measure=rep("Simpson",length(simp_genus)))

以下R码用于制作Pielou指数的数据框。

> #make a dataframe of Pielou index

> df_J<-data.frame(sample=names(J),value=J,measure=rep("Pielou",length(J)))

我们可以把所有的数据框组合在一起以备将来使用

6.4 Beta多样性测量和计算

生态学家提出了一些贝塔多样性指数。在动植物生态学的文献中，有二十多种可用的相似性度量。所有常用的指数都可以使用BioDiversityR包中的betadiver()函数找到。我们可以通过BioDiversityR包检查β多样性的定义。首先，我们加载“BioDiversityR”：

> library(BiodiversityR)

然后调用函数betadiver()以获得以下24个β多样性定义

> betadiver(help=TRUE)

1 "w" = (b+c)/(2*a+b+c)

2 "-1" = (b+c)/(2*a+b+c)

3 "c" = (b+c)/2

4 "wb" = b+c

5 "r" = 2*b*c/((a+b+c)^2-2*b*c)

6 "I" = log(2*a+b+c) - 2*a*log(2)/(2*a+b+c) -((a+b)*log(a+b) + (a+c)*log(a+c)) / (2*a+b+c)

7 "e" = exp(log(2*a+b+c) - 2*a*log(2)/(2*a+b+c) -((a+b)*log(a+b) + (a+c)*log(a+c)) / (2*a+b+c))-1

8 "t" = (b+c)/(2*a+b+c)

9 "me" = (b+c)/(2*a+b+c)

10 "j" = a/(a+b+c)

11 "sor" = 2*a/(2*a+b+c)

12 "m" = (2*a+b+c)*(b+c)/(a+b+c)

13 "-2" = pmin(b,c)/(pmax(b,c)+a)

14 "co" = (a*c+a*b+2*b*c)/(2*(a+b)*(a+c))

15 "cc" = (b+c)/(a+b+c)

16 "g" = (b+c)/(a+b+c)

17 "-3" = pmin(b,c)/(a+b+c)

18 "l" = (b+c)/2

19 "19" = 2*(b*c+1)/(a+b+c)/(a+b+c-1)

20 "hk" = (b+c)/(2*a+b+c)

21 "rlb" = a/(a+c)

22 "sim" = pmin(b,c)/(pmin(b,c)+a)

23 "gl" = 2*abs(b-c)/(2*a+b+c)

24 "z" = (log(2)-log(2*a+b+c)+log(a+b+c))/log(2)

贝塔多样性指数分为两大类相似性度量：二元相似系数和定量相似系数。当群落中的物种只有存在/不存在的测量数据时，则使用二元相似系数；而当每个物种也有相对丰富度的测量时，将应用定量相似系数。估计α的方法相当简单，但β多样性的测量一直存在争议。一些β多样性度量仅设计用于确定社区是否显著不同，其他度量是对满足距离度量要求的社区对之间的距离的度量。例如，广泛使用的是Jaccard和Bray-Curtis系数，用于根据群落所包含的物种测量群落之间的距离。选择适当的β多样性度量的关键是基于微生物组假设检验和必须针对该假设量身定做的方法，而不是相反。β多样性是通过使用相似性或不相似性(距离)度量来表示样本之间的关系来计算的。在本章中，我们将计算三个矩阵：Bray-Curtis相异度、Jaccard指数和Bray-Curtis相异度。Sørensen相异度指数。其中，前两种基质在生态学和微生物群研究中的应用尤为广泛。β多样性可以通过使用vegan、BioDiversityR或其他软件包来估计。

二元相似系数：Jaccard和Sørensen指数：存在-不存在二进制数据的系数(或关联性)可以使用2X2列联表来计算。

现在文献中有20多个二元相似性度量。二进制数据最常用的相似系数是Jaccard和Sørensen指数。Jaccard指数如下：

Jaccard相异系数为1-SJ是根据这种相似性进行修改的。可以使用vegan包中的vegdist函数()计算Jaccard的相异度，如下所示。

该指数还可以修改为相异系数：11 SS.。Sørensen and Jaccard coefficients被认为具有非常密切的相关性。假设二进制数据的所有相似系数的范围是0(无相似)到1(完全相似)。事实上，并不是所有的系数都是这样的。可以使用具有二进制数据的vegan函数vegdist()计算所有样本的Sørensen相异指数：

距离(相异)系数：Bray-Curtis指数：对于微生物群落丰度数据，距离系数的度量并不是真正的距离。他们实际上衡量的是“不同之处”。距离系数最简单的情况是两个群落样本中的两个物种。距离越小，两个社区越相似。当距离系数为零时，群落是相同的。但是，由于度量是距离系数(虽然不是真正的距离)，因此可以将其可视化。这一可视化特征直观地吸引了微生物组研究人员。不同的度量包括 Euclidian distance, Manhattan, and Bray-Curtis measures。

Bray-Curtis度量是标准化的曼哈顿度量，因此它的范围从0(相似)到1(不相似)。Bray-Curtis测度的一个特点是忽略了物种在两个群落样本中都不存在的情况，并且以丰富的物种为主，因此稀有物种增加的系数很小。

可以使用vegan包中的vegdist()函数计算Bray-Curtis相异度，如下所示

如上所述，所有的Bray-Curtis、Jaccard和Sørensen都是距离格式矩阵，只在矩阵的下三角形中有值。在得到贝塔多样性指数后，可以对其进行假设检验和统计分析。通常，这些相异矩阵可以通过多变量技术和使用诸如非参数Manova、多响应置换过程(MRPP)或相似性分析(ANOSIM)的多变量方差分析的假设检验来分析。

6.5 Summary

在本章中，我们介绍了群落多样性：α、β和γ指数。重点放在α和β差异及其计算上。微生物组研究通常始于对Chao1和Shannon多样性的估计。β多样性已被应用于两个概念模型：物种丰富度在生态梯度上的变化(乘性模型)和简单地测量研究区域内样本之间的变异(加性模型)。β多样性可视为物种周转或物种组成的变异。这两个概念模型与两种不同的β多样性定义相联系。使用Vdr−/−小鼠数据集进行了计算。可以使用这些方法和相关的R码来分析他们自己的研究。α多样性和β多样性的测量是微生物群落研究假设检验的基础。

上一篇：机器学习基础 (1) - ROC 曲线理解

下一篇：人格类型 9：一对一自我保护型社会区分