梳理与总结单细胞测序数据差异表达的分析策略
无论是传统的多细胞转录组测序(bulk RNA-seq)还是单细胞转录组测序(scRNA-seq),差异表达分析(differential expression analysis)是比较两组不同样本基因表达异同的基本方法,可获得一组样本相对于另一组样本表达显著上调(up-regulated)和下调的基因(down-regulated),从而可进一步研究这些差异表达基因的功能,包括富集的通路(pathway)或生物学过程(biological process)。
由于单细胞测序技术的局限性,单细胞测序数据通常具有高噪音,有较高的dropout问题,即很多低表达或中度表达的基因无法有效检测到。所以,以前针对传统多细胞转录组测序数据开发的差异表达检测方法或软件不一定完全适用于单细胞测序数据。若想比较不同细胞亚型或不同条件下的细胞表达差异时,为了能得到可靠的结果,需要选定一个好的差异表达分析方法(微信公众号:AIPuFuBio)。
近年来,有不少专门针对单细胞转录组测序数据的差异表达分析方法相继被开发出来,如MAST (Finak et al., 2015)、SCDE (Kharchenko et al., 2014)、 DEsingle (Miao et al., 2018)、 Census (Qiu et al., 2017)、 BCseq (Chen and Zheng, 2018)等。具体可以见下表所示:
红线上方是专门针对单细胞测序数据开发的差异表达分析软件或R包,红色下方是针对bulk转录组数据开发的软件或R包
这里要值得提一下SCDE(全名:Single Cell Differential Expression)软件,其属于最早一批专门针对单细胞测序数据开发的差异表达分析软件,地址为:https://hms-dbmi.github.io/scde/。下图是原文章中SCDE与其他传统差异表达分析软件的性能比较,显示SCDE具有不错的性能。
图2、SCDE与其他软件在单细胞测序数据集上鉴定差异表达基因的性能比较(Kharchenko et al. Nature Methods, 2014)
最近,Wang et al.等人比较了11款经典的软件在单细胞测序测序数据集上的差异表达分析性能,这些软件具体如下表所示:
图5、不同差异表达软件各主要指标的比较( Wang et al. BMC Bioinformatics, 2019)
图6、不同差异表达软件之间在真实数据集上检测到的差异表达基因比较( Wang et al. BMC Bioinformatics, 2019)。差异表达基因的定义为:adjusted p-value< 0.05
图7、样本数量对不同差异表达软件各方面性能的影响比较( Wang et al. BMC Bioinformatics, 2019)
图8、不同差异表达软件鉴定到的top 300个差异表达基因富集的显著KEGG通路数和GO条目数比较( Wang et al. BMC Bioinformatics, 2019) 。(条件:FDR<0.05)
总的来说,不同的差异表达软件有不同的优缺点。有些软件具有高灵敏性,但检测精度却比较低,有些则刚好相反。这11款软件中,DEsingle 和SigEMD这两个方法较好的平衡了差异表达基因检测灵敏性和准确性。值得注意的是,Wang et al. 的比较发现,现在这些专门针对单细胞测序数据开发的差异表达分析软件和传统的方法相比,并没有显示出太多的优势( Wang et al. BMC Bioinformatics, 2019)。这也进一步说明,还需不断开发新的单细胞测序差异表达分析方法,以更好的检测单细胞测序数据的差异表达基因。(更多经典,可见大型免费综合生物信息学资源和工具平台AIPuFu:www.aipufu.com)。笔者建议,做单细胞测序数据的差异表达分析,最好还是选择专门针对单细胞测序数据开发的软件,如SCDE、DEsingle 和SigEMD等。
希望今天的内容对大家有用哦,会持续更新的,欢迎留言~~
参考文献
1. Chen et al. Single-Cell RNA-Seq Technologies and Related Computational Data Analysis,Frontiers in Genetics, 2019
2. Wang et al. Comparative analysis of differential gene expression analysis tools for single-cell RNA sequencing data, BMC Bioinformatics, 2019
3. Kharchenko et al. Bayesian approach to single-cell differential expression analysis, Nature Methods, 2014
推荐阅读
-
【2022新手指南】Java编程进阶之路 - 六、技术架构篇 ### MySQL索引底层解析与优化实战 - 你会讲解MySQL索引的数据结构吗?性能调优技巧知多少? - Redis深度揭秘:你知道多少?从基础到哨兵、主从复制全梳理 - Redis持久化及哨兵模式详解,还有集群搭建和Leader选举黑箱打开 - Zookeeper是个啥?特性和应用场景大公开 - ZooKeeper集群搭建攻略及 Leader选举、读写一致性、共享锁实现细节 - 探究ZooKeeper中的Leader选举机制及其在分布式环境中的作用 - Zab协议深入剖析:原理、功能与在Zookeeper中的核心地位 - RabbitMQ全方位解读:工作模式、消费限流、可靠投递与配置策略 - 设计者视角:RabbitMQ过期时间、死信队列与延时队列实践指南 - RocketMQ特性和应用场景揭示:理解其精髓与差异化优势 - Kafka详细介绍:特性及广泛应用于实时数据处理的场景解析 - ElasticSearch实力揭秘:特性概述与作为搜索引擎的广泛应用 - MongoDB认知升级:非关系型数据库的优势阐述,安装与使用实战教学 - BIO/NIO/AIO网络模型对比:掌握它们的区别与在网络编程中的实际应用 - Netty带你飞:理解其超快速度背后的秘密,包括线程模型分析 - 网络通信黑科技:Netty编解码原理与常用编解码器的应用,Protostuff实战演示 - 解密Netty粘包与拆包现象,怎样有效应对这一常见问题 - 自定义Netty心跳检测机制,轻松调整检测间隔时间的艺术 - Dubbo轻骑兵介绍:核心特性概览,服务降级实战与其实现益处 - Dubbo三大神器解读:本地存根与本地伪装的实战运用与优势呈现 ----------------------- 七、结语与回顾
-
梳理与总结单细胞测序数据差异表达的分析策略