欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

[CIBERSORT]超级详细,从数据下载到数据分析(初学者笔记)

最编程 2024-04-15 08:53:34
...

【CIBERSORT】超详细,从数据下载到数据分析全过程(初学者笔记)
免疫细胞浸润估计分析工具

cibersort是目前引用次数最多的免疫细胞浸润估计分析工具,2015年首次发表于nature method。

【肿瘤免疫细胞浸润】

肿瘤免疫细胞浸润是指免疫细胞从血液中移向肿瘤组织,开始发挥它的作用,可以从肿瘤组织中分离出的浸润免疫细胞。

肿瘤中免疫细胞的浸润与临床结果密切相关,肿瘤中浸润的免疫细胞最有可能作为药物靶标来提高患者的生存率。

【数据处理】

step1:数据下载

示例数据:GSE11103(与官网示例中数据一致)

在GEO上下载series matrix file和GSE11103_RAW.tar

GEO数据库

查询平台信息,得知GSE11103使用的平台是GPL570

查询GSE11103平台

点进去之后拉到最下面点击download full table,下载平台信息

下载GPL570数据

step2:原始数据处理

查看GSE11103_series_matrix(来自Series Matrix File),手动挑选出Sample_title和Sample_geo_accession, 即样本的名字和对应的id,后续处理数据的列名需要用到。文件命名为GSE11103_series_process.txt。

注:在讲后续数据处理之前,我想先讲一下我文件的放置顺序。data里的数据就是之前下载的和自己手动处理的数据。program里的是会用到的程序和一些由于运行程序必须存在的文件

文件夹及内容文件


step3:提取表达值

#data_processing.R

用mas5方法对数据进行背景矫正,mas5方法处理的数据未经log转换。cibersort需要的数据正是未经log转换的。

生成文件列名为探针名
生成文件列名为基因名

【数据分析】

最近官网不知道什么原因,并不能上传数据,我在简书上看到一个作者写了一个R的脚本,把cibersort封装成一个R的函数,可以运行,和大家分享一下。作者的源代码就是program里的cibersort_ann.R。

[R]用R执行cibersort,根据组织的基因表达谱获取细胞的百分比 - 简书

链接放在这里,源代码我就不放啦,大家自己去这个网页上copy吧~

program里的LM22也是这个作者提供哒~

接下来我就用这个函数运行一下生成的文件

在program工作路径下运行代码

这个函数只能成功运行行名为基因名的文件,行名为探针名的文件不能运行成功。但是官网上的示例文件的行名是探针名,由于官网目前并不能上传数据,所以我也不清楚到底可不可行。

以上是我对cibersort的初学笔记,仅供参考~