肿瘤异质性研究的标准思路(多组学+多聚焦取样)
交流群有小伙伴开启了为什么生物信息学数据分析在生命科学领域研究的占比越来越重要了的话题,拿我自己看的文献最多的方向,也就是肿瘤异质性研究来说,基本上已经是没办法离开组学技术手段了,所以产生海量的ngs组学数据也就毫不稀奇了。
比如肿瘤异质性研究的标准思路(多组学+多位点取样),发表在 Clin Cancer Res 2021; 的 文章:《Multiomic Analysis Reveals Comprehensive Tumor Heterogeneity and Distinct Immune Subtypes in Multifocal Intrahepatic Cholangiocarcinoma》
其课题设计是如下所示的多组学:
课题设计
可以看到研究者们对一个病人的单个肿瘤进行了多位点取样,而且对这些样品接下来多层次的组学实验,产出了大量的数据,涵盖了我们生信技能树的绝大部分系统性教程。包括:
- 免费视频课程《RNA-seq数据分析》
- 免费视频课程《WES数据分析》
- 免费视频课程《ChIP-seq数据分析》
- 免费视频课程《ATAC-seq数据分析》
- 免费视频课程《TCGA数据库分析实战》
- 免费视频课程《甲基化芯片数据分析》
其中WES可以看SNV和CNV
从WES的fastq数据里面找到SNV和CNV仅仅是ngs标准上游流程,可以参考《肿瘤外显子》专栏的目录(节选)如下:
- (一)读文献并且下载测序数据
- (二)质控与去接头
- (三)比对
- (四)比对结果的质控
- (番外篇)bam文件载入igv可视化
- (五)GATK的最佳实践
- (六)vcf文件的注释及ANNOVAR的使用
- (七)maftools可视化
- (八)不同注释软件的比较(上):安装及使用
- (八)不同注释软件的比较(中):注释后转成maf文件
- (八)不同注释软件的比较(下):可视化比较maf文件
但是后续的统计可视化才是重点,而这个主要是取决于课题设计,比如本研究是多位点取样,所以有如下所示:
SNV和CNV
分组后的突变全景图就无需课题背景知识了,只需要拿肿瘤相关通路去展开讨论一下即可:
肿瘤相关通路的突变全景图
转录组数据推断肿瘤免疫浸润细胞比例
前面的WES产生SNV和CNV,所以可以把病人分组,比如本研究选择了ITH进行分组,然后看其表达量的差异,有意思的是这个时候并没有进行常规差异分析,而是直接使用转录组数据推断肿瘤免疫浸润细胞比例,如下所示:
转录组数据推断肿瘤免疫浸润细胞比例
但是转录组数据推断肿瘤免疫浸润细胞比例毕竟只是算法层面,所以仍然是需要使用单细胞技术进行真正的细胞比例查看。
单细胞数据看亚群占比
如下所示:
降维聚类分群看比例
甲基化水平也是看异质性
这个时候无论是选择什么样的组学技术,分析都是大同小异了,而且不同技术得到的数据有不同的异质性量化方式。
甲基化水平也是看异质性
因为是标准思路,所以这样的文章比比皆是,比如2019的文章;《Integrated multiomic analysis reveals comprehensive tumour heterogeneity and novel immunophenotypic classification in hepatocellular carcinomas》,也是多组学+多位点取样的思路。