生物信息学生物信息学与算法生物信息学习

Motif中的PWM矩阵

2019-11-27  本文已影响0人  生信编程日常

PWM矩阵是表示motif的一种方式,全称是position-specific weight matrix (PSWM) 或者是position-specific scoring matrix (PSSM)。比如CTCF的motif序列为(来自于JASPAR数据库):

要构建出PWM矩阵,首先要得到position frequency matrix (PFM),即在每个位置的四种核苷酸出现的次数。比如说CTCF的PFM序列为 (图中为JASPAR中的.jaspar文件):

也就是在第一个位置A出现了87次,C出现了291次,G出现了76次,T出现了459次。将每个位置的频数转换为频率 (某核苷酸的出现数量/这个位置四种核苷酸的总数量),可以得到position probability matrix (PPM) (图中行列互换 用的是JASPAR中的.meme文件):

最后通过以下公式将PPM转换为PWM:

其中M是指的这个位点的probability,b是指的background (上图的background为0.25)。上图中CTCF的PPM转化为PWM为:

 motif可以由meme等软件找到,也可以从JASPAR, CISBP, HOCOMOCO等数据库中下载得到,meme的官方网站(http://meme-suite.org/tools/meme)提供了一系列的处理软件和现有的motif PWMs。

得到motif PWM后,可以用Fimo或其他软件在基因组中扫描得到序列,其基本用法为:

fimo [options] <motif file> <sequence file> 

提供motif的PWM文件和参考基因组即可。

扫描关注微信公众号,学习更多的生信和编程知识,每天进步一点点!

上一篇下一篇

猜你喜欢

热点阅读