ESTIMATE算法在肿瘤纯度评估中的应用
介绍
恶性实体瘤组织不仅包括肿瘤细胞,还包括与肿瘤相关的正常上皮和间质细胞、免疫细胞和血管细胞。基质细胞被认为在肿瘤生长、疾病进展和耐药性中起重要作用; 浸润性免疫细胞的作用具有上下文依赖性。浸润的间质细胞和免疫细胞构成了肿瘤组织中正常细胞的主要组成部分,不仅在分子研究中干扰了肿瘤信号,在肿瘤生物学中也起着重要的作用。
Estimate是一种使用基因表达特征来推断肿瘤样本中间质和免疫细胞比例的方法,全称为Estimation of STromal and Immune cells in MAlignant Tumor tissues using Expression data(使用表达数据估计恶性肿瘤中的间质和免疫细胞),即可以通过ESTIMATE算法用表达数据来估计恶性肿瘤组织中的基质细胞和免疫细胞的含量,预测出免疫评分和基质评分,从而预测其含量,以及计算每个肿瘤样本中的肿瘤纯度,如果基质细胞和免疫细胞含量多了,那么肿瘤纯度就低,反之肿瘤纯度就高了
参考文献:《Inferring tumour purity and stromal and immune cell admixture from expression data》
关于输出结果
结果 | 解释 |
---|---|
stromal scor | 基质细胞评分 |
immune score | 免疫细胞评分 |
estimate score | 综合评分(基质细胞打分和免疫细胞打分的加和) |
TumorPurity | 肿瘤纯度 |
关于代码
一、下载R包
library(utils)
rforge <- "http://r-forge.r-project.org"
install.packages("estimate", repos=rforge, dependencies=TRUE)
二、加载数据
#打开R包
library(estimate)
# 加载示例数据(即表达矩阵)
Expr <- system.file("extdata", "sample_input.txt", package="estimate")
read.table(Expr)[1:4,1:4] # 查看一下数据
## s516 s518 s519 s520
## C9orf152 4.881540 4.575656 3.739469 3.695996
## ELMO2 7.298054 7.555440 7.533202 7.382355
## CREB3L1 5.569164 5.700406 5.959730 5.770007
## RPS11 13.389937 13.848820 13.642862 13.654622
# 对于我们平时输入的表达矩阵可以用这个标准化
Expr=log2(edgeR::cpm(Expr)+1) # 本次不运,因为示例数据在格式上需要转化一下
library(utils)
rforge <- "http://r-forge.r-project.org"
install.packages("estimate", repos=rforge, dependencies=TRUE)
#打开R包
library(estimate)
# 加载示例数据(即表达矩阵)
Expr <- system.file("extdata", "sample_input.txt", package="estimate")
read.table(Expr)[1:4,1:4] # 查看一下数据
## s516 s518 s519 s520
## C9orf152 4.881540 4.575656 3.739469 3.695996
## ELMO2 7.298054 7.555440 7.533202 7.382355
## CREB3L1 5.569164 5.700406 5.959730 5.770007
## RPS11 13.389937 13.848820 13.642862 13.654622
# 对于我们平时输入的表达矩阵可以用这个标准化
Expr=log2(edgeR::cpm(Expr)+1) # 本次不运,因为示例数据在格式上需要转化一下
可以通过示例数据看出,我们需要的输入数据是一个行名是基因名GeneSymbol (或 EntrezGeneID),列是样本的表达矩阵
三、计算
ESTIMATE 综合了多个平台,计算得分之前必须将表达文件转化成gct格式
#准备 gct格式 的表达谱文件
filterCommonGenes(input.f=Expr, #刚刚准备的表达矩阵的名字
output.f="Estimate_gene.gct", #输出的gct格式文件名
id="GeneSymbol") #标注好是GeneSymbol 还是EntrezGeneID
# 成功表达谱转换为 gct 格式,并且保存到Estimate_gene.gct文件中
# 计算得分
estimateScore(input.ds = "Estimate_gene.gct", # 刚刚转化好的gct文件
output.ds="Estimate_score.gct", # 计算得分输出的文件名
platform="affymetrix") # 数据来源的平台
# 读取并整理得分文件
scores=read.table("Estimate_score.gct",skip = 2,header = T) #读取
rownames(scores)=scores[,1]
scores=t(scores[,3:ncol(scores)])
scores
#输出文件
write.csv(scores,"scores.csv")
write.table(scores,"scores.txt",sep = "\t",row.names=T,col.names = T)
& 关于计算得分的平台“platform”
数据 | 设置 |
---|---|
芯片数据 | plotform 的值设置为 affymetrix |
二代测序数据 | platform 的值设置为 illumina |
注意!由于R包的个性化设定,当平台plotform="illumina" 时,输出结果无肿瘤纯度
四、画图
ESTIMATE 可以生成一个 ESTIMATE评分 与 肿瘤纯度 关系的一个图:
plotPurity(
"Estimate_score.gct", #计算得分输出的文件名
samples = "s520", # 样本名
platform = "affymetrix", #平台
output.dir = "figs" #图片保存的地方
)
学习的教程:
生信技能树的使用ESTIMATE计算肿瘤的免疫得分
obwteESTIMATE包计算肿瘤纯度
感谢大佬们的无私分享
学习总结如果有不对的地方,欢迎大家指正
推荐阅读
-
TopK 算法在大数据重复性数据分析中的应用与挑战
-
回归预测 | Matlab 基于 SABO-SVR 减平均算法的支持向量机在多输入单输出数据回归预测中的应用优化
-
KCF跟踪算法在Python中的应用
-
重写的标题:小顶堆算法在堆排序中的应用
-
常见的JAVA API在算法竞赛中的应用:PriorityQueue(优先队列)
-
解析光线追踪的算法(AABB、BVH、SAH)在Games101课程中的应用+ 完成作业6
-
领域最全 | 计算机视觉算法在路面坑洼检测中的应用综述(基于2D图像/3D LiDAR/深度学习)(下)
-
第九章:多元回归在评估研究中的应用
-
深入理解分治算法在LeetCode实战中的应用:快速排序思维解析与算法沉淀
-
【摩尔线程+Colossal-AI强强联手】MusaBert登上CLUE榜单TOP10:技术细节揭秘 - 技术实力:摩尔线程凭借"软硬兼备"的技术底蕴,让MusaBert得以从底层优化到顶层。其内置多功能GPU配备AI加速和并行计算模块,提供了全面的AI与科学计算支持,为AI推理和低资源条件下的大模型训练等场景带来了高效、经济且环保的算力。 - 算法层面亮点:依托Colossal-AI AI大模型开发系统,MusaBert在训练过程中展现出了卓越的并行性能与易用性,特别在预处理阶段对DataLoader进行了优化,适应低资源环境高效处理海量数据。同时,通过精细的建模优化、领域内数据增强以及Adan优化器等手段,挖掘和展示了预训练语言模型出色的语义理解潜力。基于MusaBert,摩尔线程自主研发的MusaSim通过对比学习方法微调,结合百万对标注数据,MusaSim在多个任务如语义相似度、意图识别和情绪分析中均表现出色。 - 数据资源丰富:MusaBert除了自家高质量语义相似数据外,还融合了悟道开源200GB数据、CLUE社区80GB数据,以及浪潮公司提供的1TB高质量数据,保证模型即便在较小规模下仍具备良好性能。 当前,MusaBert已成功应用于摩尔线程的智能客服与数字人项目,并广泛服务于语义相似度、情绪识别、阅读理解与声韵识别等领域。为了降低大模型开发和应用难度,MusaBert及其相关高质量模型代码已在Colossal-AI仓库开源,可快速训练优质中文BERT模型。同时,通过摩尔线程与潞晨科技的深度合作,仅需一张多功能GPU单卡便能高效训练MusaBert或更大规模的GPT2模型,显著降低预训练成本,进一步推动双方在低资源大模型训练领域的共享目标。 MusaBert荣登CLUE榜单TOP10,象征着摩尔线程与潞晨科技联合研发团队在中文预训练研究领域的领先地位。展望未来,双方将携手探索更大规模的自然语言模型研究,充分运用上游数据资源,产出更为强大的模型并开源。持续强化在摩尔线程多功能GPU上的大模型训练能力,特别是在消费级显卡等低资源环境下,致力于降低使用大模型训练的门槛与成本,推动人工智能更加普惠。而潞晨科技作为重要合作伙伴,将继续发挥关键作用。