哈佛大学 - 差异表达分析(VI)样本水平质量控制(PCA 和分层聚类)
文章目录
- 学习目标
- 质量控制
-
- 样本水平QC
-
- 主成分分析 (PCA)
-
- PCA图的解释
- 分层聚类热图(Hierarchical Clustering Heatmap)
- 使用DESeq2对Mov10质量评估和探索性分析
-
- 转换MOV10数据集的归一化计数
- MOV10数据集的主成分分析(PCA)
- MOV10数据集的层次聚类
学习目标
- 转换计数的无监督聚类方法(unsupervised clustering methods)
- 用主成分分析(Principal Components Analysis)评价样品质量
- 数据集中样本的层次聚类(Hierarchical clustering)
质量控制
DESeq2工作流程的下一步是QC,包括样本水平(sample-level)和基因水平(gene-level)的步骤,对计数数据进行QC检查,以帮助我们确保样本/重复看起来良好。
样本水平QC
在RNA-seq分析中,一个有用的初始步骤通常是评估样本之间的总体相似性:
- 哪些样品相似,哪些不同?
- 这符合实验设计的期望吗?
- 数据集变异的主要来源是什么?
为了探究样本的相似性,我们将使用主成分分析(PCA)和层次聚类方法执行样本级质量控制。这些方法/工具允许我们检查重复样本彼此之间的相似程度(聚类),并确保实验条件是数据变异的主要来源。样本级QC还可以帮助识别任何表现为异常值的样本;我们可以进一步探索任何潜在的异常值,以确定是否需要在去分析之前删除它们。
这些无监督的聚类方法使用log2转换的归一化计数运行。log2转换改进了可视化的距离/集群。不使用普通的log2转换,我们将使用正则化的log转换(regularized log transform, rlog),以避免从丰富的低计数基因来的任何偏倚;下面的Note1对此做了更详细的解释。
Image adapted from “Beginner’s guide to using the DESeq2 package” by Love, Anders and Huber, 2014
注1:“许多用于多维数据探索性分析的常见统计方法,特别是聚类和排序方法(例如,主成分分析等),最适合于(至少近似地)同方差数据;这意味着一个可观察量的方差(即,在这里为基因的表达强度)不依赖于平均值。然而,在RNA-Seq数据中,方差随均值增长。例如,如果一个人直接在一个归一化读计数矩阵上执行主成分分析,结果通常只取决于少数表达最强烈的基因,因为它们在样本之间显示出最大的绝对差异。避免这种情况的一个简单且经常使用的策略是对规范化计数值加上一个小的伪计数取对数;然而,现在低计数基因倾向于主导结果,因为由于小计数值固有的强泊松噪声,它们在样本之间表现出最强的相对差异。
作为一种解决方案,DESeq2提供了正则对数变换,简称rlog。对于高计数的基因,rlog转化与普通的log2转化差别不大。然而,对于计数较低的基因,其值在所有样本中向基因的平均值缩小。使用一个经验贝叶斯先验形式的岭惩罚,这样做使rlog转换的数据是近似同方差(homoskedastic)的。——从Love, Anders和Huber撰写的“Beginner’s guide to using the DESeq2 package”,2014年(DESeq2 vignette是本文档的更新版本)。
注2:DESeq2 vignette建议大数据集(100多个样本)使用稳定方差转换(variance-stabilizing transformation, vst)而不是rlog来进行计数转换,因为rlog函数可能运行时间太长,而
vst()
函数在具有与rlog类似的属性时速度更快。
主成分分析 (PCA)
主成分分析(PCA)是一种用于强调变化并在数据集中显示强模式(降维)的技术。这是在QC以及大量和单细胞RNAseq数据分析中使用的一个非常重要的技术。
为了更好地理解它是如何工作的,请浏览StatQuest提供的这段视频解释的PCA。当你看完视频后,请继续下面的解释部分。
推荐阅读:
[1] 如何通俗易懂地讲解什么是 PCA 主成分分析?(知乎)
PCA图的解释
从本质上说,如果两个样本对一个给定的PC(主成分)所代表的变异有显著贡献的基因有相似的表达水平,那么他们将在代表该PC的轴上紧密地绘制在一起。 因此,我们期望生物学重复样本有相似的分数(因为我们的期望是相同的基因在变化)并聚集在一起。通过可视化一些示例PCA图,这是最容易理解的。
下面我们有一个示例数据集和一些相关的PCA图,以便了解如何解释它们。实验的metadata如下所示。最重要的是treatment
。
当在PC1和PC2上进行可视化时,我们并没有看到经过treatment
后的样本分开,所以我们决定探究数据中出现的其他变异来源。我们希望我们已经在metadata表中包含了所有可能的已知变化来源,并且我们可
上一篇: 时间序列水平分析--金块
下一篇: [多层次中介建模