欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

GenomeStudio DNA甲基化分析:精准测量DNA修饰程度

最编程 2024-02-18 20:33:44
...

温馨提示:本章内容图片很多,建议在电脑上观看。

通过GenomeStudio的methylation 模块,可以方便的对甲基化芯片数据进行分析。这个软件主要提供了定量和差异两种分析,今天先看一下如何进行定量分析。

在使用软件之前,我们必须先准备好输入文件,需要两种类型的输入文件:

  1. 甲基化芯片的原始数据
  2. 芯片的注释信息,后缀为 .bpm 的文件

以illumina 官方下载的450K Demo 数据集为例,解压缩之后的文件如下图

HumanMethylation450_15017482_v.1.1.bpm 是450K 芯片的探针注释文件,可以从官网下载得到;5640269011 是芯片的Sentrix_ID, 在这个目录下是该芯片上的12个样本的原始数据,目录结构如下

5640269011/
├── 5640269011_R01C01_Grn.idat
├── 5640269011_R01C01_Red.idat
├── 5640269011_R01C02_Grn.idat
├── 5640269011_R01C02_Red.idat
...
├── 5640269011_R06C02_Grn.idat
├── 5640269011_R06C02_Red.idat

当芯片原始数据和探针注释文件准备好之后,就可以开始分析。 GenomeStudio 软件中有三个概念:

  1. project
  2. groupset
  3. group

分析时,我们首先需要新建一个project ,在这个project 下,包含所有待分析的样本的数据,然后新建一个groupset, 指定样本的分组信息,一个groupset 下面可以有多个group, 比如我们常见的control/case 实验实际,样本就会有两个group; 启动软件之后,点击 File -> Project -> Methylation 新建一个甲基化的项目,会弹出如下的对话框,让我们选择芯片平台,对于450K和850K 而言,选择 Infinium, 然后点击 OK 进入下一步

接下来选择 Next 就行,在如下所示的对话框中,选择芯片类型,选择 Infinium HD 就行

在下面的输入框中输入项目保存的目录,并给项目起一个名字

接下来在Repository 中选择原始数据存放的目录, 在Barcode 中选择芯片对应的Sentrix ID, 把想要分析的样本添加到Project Data 中,通过Project Data 左侧的工具条,可以添加,删除样本

接下来新建groupset, 勾选New, 输入groupset 的名字,然后根据样本分组,新建不同的group。中间的格子代表样本,可以选中,Ctrl 可以多选,Project Groups 左侧的工具条可以新建group , 并将选中的样本添加到该group下,我这里为了测试,将样本分成了case和control 两个group. 每个group下6个样本

最后选择对应的分析内容,这里我只计算样本的甲基化水平,勾选Methylation, 然后为这个分析命名Name, Normalization 选择归一化的方法,none 表示不需用归一化,Content Descriptor 选择芯片探针注释数据.bpm,这些都设置好之后,点击 Finish 运行。

运行完成之后的截图如下:

默认情况下有3个窗口:

  1. Samples Table : 每个样本的汇总信息,比如检测到的cpg位点数
  2. Group Methylation Profile : 不同group的甲基化表达谱
  3. Sample Methylation Profile : 所有样本的表达谱

每个窗口下方都有对应的工具条,可以做许多的分析,这里我们只对Sample Methylation Profile进行说明, 我们的目的是获取所有样本甲基化水平表达谱,这里给出的Beta 值就是我们想要的结果。

对于这个表格,可以选择 如下所示的工具,选择想要展示的列的信息

根据自己的目的,选择想要展示和隐藏的列,可以展示的列,可以鼠标选中之后,上下拖动,调整表头的顺序

在分析过程中,我们一般需要所有样本的Detection PvalAvg_Beta 的信息。Detection Pval 表示这个探针信号的可信度,越小越好,我们可以根据一定的阈值对可信度低的探针进行过滤,比如将pvalue > 0.01 的探针过滤掉。

Avg_Beta 值就是甲基化水平的表达量,beta 值的计算公式为 M / (M + U +100), M 代表甲基化的信号,U 代表非甲基化的信号,之所以分母中加100,是为了防止分母为0的情况,100 是一个常用的标准。 当调整好表头之后,我们就可以将表格数据导出。

总结

  1. GenomeStudio 分析甲基化芯片数据,需要后缀为.bpm的探针注释文件和.idat格式的原始数据,要注意原始数据存放的目录格式;
  2. 通过project->groupset->group, 将所有样本数据导入,并设置好分组,就可以运行了;
  3. 对于探针数据的可信度,会有对应的p值,我们可以过滤掉p值较高(比如>0.01)的探针数据,对于甲基化水平,常用beta值来表征,通常我们都需要导出p值和beta值的表格。