Motif中的PWM矩阵

最编程 2024-02-17 18:35:09

...

PWM矩阵是表示motif的一种方式，全称是position-specific weight matrix (PSWM) 或者是position-specific scoring matrix (PSSM)。比如CTCF的motif序列为（来自于JASPAR数据库）：

要构建出PWM矩阵，首先要得到position frequency matrix (PFM)，即在每个位置的四种核苷酸出现的次数。比如说CTCF的PFM序列为 (图中为JASPAR中的.jaspar文件):

也就是在第一个位置A出现了87次，C出现了291次，G出现了76次，T出现了459次。将每个位置的频数转换为频率 (某核苷酸的出现数量/这个位置四种核苷酸的总数量)，可以得到position probability matrix (PPM) (图中行列互换用的是JASPAR中的.meme文件)：

最后通过以下公式将PPM转换为PWM：

其中M是指的这个位点的probability，b是指的background (上图的background为0.25)。上图中CTCF的PPM转化为PWM为：

motif可以由meme等软件找到，也可以从JASPAR, CISBP, HOCOMOCO等数据库中下载得到，meme的官方网站(http://meme-suite.org/tools/meme)提供了一系列的处理软件和现有的motif PWMs。

得到motif PWM后，可以用Fimo或其他软件在基因组中扫描得到序列，其基本用法为：

fimo [options] <motif file> <sequence file>

提供motif的PWM文件和参考基因组即可。

扫描关注微信公众号，学习更多的生信和编程知识，每天进步一点点！

机器之心关于机器学习中的矩阵、向量推导的最精彩文章