04 鲑鱼基因定量

最编程 2024-05-08 18:14:29

...

1、介绍

Salmon基因定量是一种常用于RNA测序（RNA-seq）数据分析的方法，其原理是利用贝叶斯统计模型从RNA-seq reads中预测不同转录本或基因的表达量。相比传统的基于比对的方法，它可以更准确地识别和量化转录本，并且能够更好地处理多样性的剪切形式。

Salmon的基本流程如下：

从测序数据里建立一个参考转录组。
对测序reads进行mapping-free的量化，解决对比对结果依赖以及计算量大的问题。
提供丰富的输出格式，包括TPM（Transcripts Per Million）和FPKM（Fragments Per Kilobase per Million mapped reads），方便使用者后续的差异表达分析等生物信息学实践。

在进行Salmon基因定量时，需要注意以下几个因素：

建立参考转录组时应该优先选择高质量、与样本物种相关的数据库，确保物种描述符和序列信息完备。
测序数据的质量也会影响到定量的准确性，所以需要对原始数据进行质控筛选和去除低质量reads等预处理步骤。
在生成基因表达矩阵后，通常还需要进行一些数据规范化或归一化处理，比如使用TMM、RPKM等方法调整样本之间的差异性。

2、具体来说

Salmon基因定量是一种基于RNA-Seq数据的高通量表达水平分析方法，常用于宏基因组分析中。其功能是通过拟合转录本表达值和实际RNA-seq样本数据之间的映射关系，从而估计转录本或基因在一个复杂的混合样本中的相对丰度。

具体来说，Salmon基因定量首先利用序列比对软件将RNA-seq reads对应到参考基因组上。然后，它使用一种精细的概率模型对reads进行定量，该模型考虑了多个因素，如转录本长度、错配率和碎片化等。最后，Salmon会输出每个转录本或基因的表达丰度值，可以进一步用于差异表达分析、功能富集分析等生物信息学研究。

举例来说，如果我们想要了解某个复杂的微生物群落中某些基因的表达水平，就可以通过Salmon基因定量来获取这些基因在不同样本中的相对表达量。这种技术能够帮助我们更好地理解微生物群落的结构与功能，以及它们对环境变化的响应机制。

3、特点

Salmon是一种在宏基因组学分析中广泛使用的基因定量工具。相对于其它传统的基因定量工具，该工具具有以下几个特点：

高速、高效：Salmon基于比对到参考序列的假设而设计，而与常见的比对算法不同，它通过处理成对的短读取来求解转录本表达量，从而加快了分析过程。
精确度高：基于精确的概率模型和EM算法，能够更好地处理RNA-Seq数据集并提高准确性，尤其适合在真核生物中处理复杂的转录剪切异构体变化问题。
无需依赖已知转录本：与其它定量工具不同的是，Salmon通过来自整个转录组的k-mers来构建索引并预测转录物组成份，从而避免使用已知的转录本信息，同时它也能够识别出新的转录本和单核苷酸变异。
内存占用小：由于salmon采用索引而不是存储比对结果，所以其内存占用比某些常见的比对算法小得多。

总之，Salmon基因定量工具的高效、准确、无偏差以及少占内存等特点，使其在宏基因组分析中得到了广泛的应用。

4、命令分析

salmon index -t out.fa -i meta_index2 -k 31 -p 20

这是一行Salmon命令，用于构建索引（index）以供宏基因组数据进行量化分析。

下面是各参数的解释：

salmon：一个基于贝叶斯概率模型的工具，用于RNA-seq数据的定量分析
index：构建引用转录本组的索引
-t out.fa：指定输入FASTA格式的参考转录组序列的文件路径。在这个例子中，序列保存在名为out.fa的文件中。
-i meta_index2：为转录本组建立一个唯一的标识符的索引名称。在这个例子中，索引命名为meta_index2。
-k 31：设置最大
-p 20：设置线程数为20。加速Salmon的运行时间。

综上，该行代码指定了一个参考转录组文件的位置以及一些参数。利用这些文件和参数，Salmon可以根据参考转录组构建一个快速有效的索引，供后续宏基因组数据的定量分析使用。

salmon quant --libType IU -i ./meta_index -1 ../SRR13188906_1.fastq -2 ../SRR13188906_2.fastq -o ./test.quant2 -p 20

这个Salmon命令是用于定量RNA-Seq数据的。在宏基因组分析中，可以使用RNA-Seq来测量不同组织或条件下基因表达的变化。Salmon根据转录本产生的碎片数量评估每个基因的表达量。

具体参数的解释如下：

quant 表示运行 Salmon 定量程序
--libType IU 指定输入样本的 RNA 库类型为 UMI 转录本测序库类型
-i ./meta_index 指定索引文件位置
-1 ../SRR13188906_1.fastq 和 -2 ../SRR13188906_2.fastq 分别指定 paired-end 原始 reads 的路径
-o ./test.quant2 指定输出结果目录
-p 20 指定使用的线程数量为 20

通过运行这个Salmon命令，将生成一个quantification文件，其中包含每个基因在给定样品中的丰度信息，以及一些其他统计信息。这些信息可以用于进一步的差异表达分析，发现基因的变化。

salmon quantmerge --quants ./*.quant --column TPM -o ./result/gene.count2

这个Salmon命令用于将基因表达数据合并，并输出每个基因的TPM值到指定的输出文件。下面是每个参数的解释：

salmon 表示调用 Salmon 工具进行操作
quantmerge 表示将多个定量结果文件合并成一个文件
--quants ./*.quant 指定输入文件，其中./表示当前目录，*.quant表示选择所有扩展名为.quant的文件
--column TPM 表示从每个输入文件选择TPM列作为输出结果
-o ./result/gene.count2 指定输出文件路径和名称，其中./result/表示输出到result文件夹，gene.count2则是输出文件的名称。

该命令应当被用于分析RNA测序数据，以确定每种基因在不同样本的表达情况，并计算出TPM值以得到更可靠的量化结果。宏基因组分析往往包括对多个样本进行比较，以帮助进一步理解生物体内基因表达模式的变化。

5、结果分析

根据提供的信息可以发现，这是一个Salmon软件生成的转录本定量结果。为了更好地理解这些结果，请查看下表用于解释所列示的每个列的含义：

此外，这些结果告诉我们，在所观察到的样本中，每个转录本的表达水平不同。TPM和NumReads可以用于计算相对表达水平。例如，在该样本中，B1W10_1_dna_k127_31_1具有最高的TPM值（0.423），它可能是最强烈表达的转录本之一，同时该转录本也具有NumReads次高的读数（10.117）。另一方面，B1W10_1_dna_k127_42_2的TPM值较低（0.452），表示其表达水平可能相对较低，而其NumReads为2。

这是Salmon软件输出的一个关于基因组序列的表格，它包含了不同的序列编号和对应的测量值。每个编号代表一个短DNA序列（称作k-mer），这些短序列可以通过拼接来重构更长的基因组序列。

假设有两个样本 A 和 B，则每个样本中每个 k-mer 都被评估为其出现在数据中的概率。这通常用 TPM (Transcripts Per Million) 表示，提示该k-mer相对于其他k-mers是多么频繁或者稀少，具体的计算公式可以参考Salmon用户手册。每个值表示该k-mer在样本中的表达水平。

这些信息可以用于识别RNA测序数据中存在的基因和其他转录本，或者进行基因组装。需要注意的是，对于单个k-mer而言，并不能从其值推断出它的位置、大小或功能，只有当将它们与其他数据一起使用时才能得到更完整的信息。

####################################################################################

conda install salmon -c bioconda

salmon index -t out.fa -i meta_index2 -k 31 -p 20

salmon quant --libType IU -i ./meta_index -1 ../SRR13188906_1.fastq -2 ../SRR13188906_2.fastq -o ./test.quant2 -p 20

salmon quantmerge --quants ./*.quant --column TPM -o ./result/gene.count2

###################################################################################

上一篇：论文解读-TransForensics：利用密集自我关注进行图像伪造定位

下一篇：学习通行证下载 PDF 资源

04 鲑鱼基因定量