新研究发现：蛋白质甲基化等组蛋白修饰程度能预判基因表达

最编程 2024-02-20 09:40:20

...

前言

组蛋白经常用共价修饰进行装饰。这些组蛋白修饰被认为参与各种染色质依赖性过程，包括转录。为了阐明组蛋白修饰和转录之间的关系，文中得出了定量模型来预测组蛋白修饰水平的基因表达水平。发现组蛋白修饰水平和基因表达非常相关。此外，文中显示只有少量的组蛋白修饰是准确预测基因表达所必需的。不同组的组蛋白修饰对于预测由高CpG含量启动子（HCP）或低CpG含量启动子（LCP）驱动的基因表达是必要的。最后，文中显示组蛋白修饰和基因表达之间的联系似乎是泛化的，能够使用另一种细胞训练的模型来预测一种细胞类型的基因表达水平。

1 流程

数据取自C，其中包括19个赖氨酸或精氨酸组蛋白甲基化的分布，一个H2A.Z组蛋白变体和19个组蛋白乙酰化。然后将标签映射到围绕RefSeq基因的TSS的4,001个碱基对区域。将该区域中的标签相加作为组蛋白修饰水平的估计。每个基因有39个组蛋白修饰值（每个修饰一个）。在Affymetrix Human Genome U133 Plus 2.0 GeneChip上进行的T细胞的表达微阵列数据取自参考文献。原始表达值在所有重复中平均。

使用线性回归预测表达式，组蛋白修饰预测基因表达：

PNAS揭示组蛋白修饰水平是基因表达的预测因子_Java

为了研究是否所有的修饰对拟合基因表达模型的都有重要影响，文章使用一到三个修饰的组合构建了模型：

PNAS揭示组蛋白修饰水平是基因表达的预测因子_Java_02

研究结果表明启动子上只有三个修饰的水平足以忠实地模拟相关基因的表达。

PNAS揭示组蛋白修饰水平是基因表达的预测因子_Java_03

鉴于建模和测量表达值之间的良好一致性，进一步分析模型，以推断不同组蛋白修饰与不同组的启动子之间的关系。更具体地说，将启动子分为LCP和HCP。文中推断，如果这些启动子被不同的组蛋白修饰标记，组蛋白修饰的预测能力也应该在这两组启动子之间不同。事实结果确实如此，在三修饰组合模型中 H4K20me1和H3K27ac（以及可能的H2BK5ac）在HCPs的最佳评分模型中显着地过表达。H3K4me3和H3K79me1 在LCPs中显着过表达，表明不同的修饰对于这两组中基因表达的预测是不同的。

PNAS揭示组蛋白修饰水平是基因表达的预测因子_Java_04

对CD4 +数据进行的线性模型训练。运用经过训练的模型参数，预测了在CD36 +和CD133 +细胞中测定的组蛋白修饰数据的基因表达水平。接下来，测试一种细胞类型的数据训练的模型是否可以用于预测另一种细胞类型的基因表达。使用在CD4 + T细胞中测量的九个组蛋白修饰的数据来训练线性模型的参数。然后将这些参数用于预测CD36 +细胞中测定的组蛋白修饰标签计数的CD36 +中基因的表达值。

PNAS揭示组蛋白修饰水平是基因表达的预测因子_Java_06

用CD4 + T细胞数据训练的参数用于预测在CD133 +细胞（F-H）中测定的组蛋白修饰标签计数的CD133 +中基因的表达值。

PNAS揭示组蛋白修饰水平是基因表达的预测因子_Java_07

参考文献：

Karlić, R., Chung, H.-R., Lasserre, J., Vlahoviček, K., & Vingron, M. (2010). Histone modification levels are predictive for gene expression. Proceedings of the National Academy of Sciences of the United States of America, 107(7), 2926–2931. http://doi.org/10.1073/pnas.0909344107

上一篇：使用R语言轻松计算基因表达量的TPM值：一份简单易懂的R脚本指南

下一篇：基因相互作用的通俗理解