MEME 的安装和使用
MEME 是一款用于研究 Motif 的 组合工具套。Motif 是指在一组序列中重复出现的相似的序列模式(pattern)。MEME包含多个小工具,如 MEME、STREME、 CentriMo、 AME、 FIMO、 Tomtom 等等。MEME 工具套的功能全面,包括 挖掘 Motif(Motif Discovery)、富集 Motif(Motif Enrichment)、查询 Motif(Motif Scanning)、比较 Motif(Motif Comparison)。
什么是motif分析
在DNA或蛋白的同源序列中,不同位点的保守程度是不一样的,一般来说,对DNA或蛋白质功能和结构影响比较大的位点会比较保守,其它位点则不是很保守。这些保守的位点就称为“模体(motif)”。motif最先是通过实验的方法发现的。motif这个单词就是形容一种反复出现的模式,而序列motif往往是DNA上的反复出现的模式,并被假设拥有生物学功能。而且,经常是一些具有序列特异性的蛋白的结合位点(如,转录因子)或者是涉及到重要生物过程的(如,RNA 起始,RNA 终止, RNA 剪切等等)。目前被人们识别出来的motif也越来越多,如TRANSFAC和JASPAR数据库都有着大量转录因子的motif。
MEME安装
最新版本的MEME依赖perl 5.10.1版本及以上,所以需要安装perl。
- 下载perl并安装
download URL
安装follow:
tar zxvf perl.tar.gz
cd /yourpath/perl
./Configure -des -Dprefix= /yourpath/perl_Dusethreads
make ##take a lot of time
make test
make install
vi .bash_profile #写入你的安装路径
2.下载并安装MEME
download URL
安装follow:
tar zxf meme.tar.gz
cd meme_4.11.3
./configure --prefix=/yourpath/meme --with-url=http://meme-suite.org --enable-build-libxml2 --enable-build-libxslt
make
make test
make install
MEME官网下载页面:
Download Releases - MEME Suite (meme-suite.org)
MEME使用
以下内容参考 MEME Manual (http://meme-suite.org/doc/overview.html?man_type=web)
一、挖掘 Motif(Motif Discovery)
挖掘 Motif 是指:MEME 基于用户所提供的序列,根据特定的算法,预测(Predict) 序列中可能包含的 Motif。需要注意的是,挖掘 Motif 的算法不是将序列与数据库中已知的 Motif 比对,也不是用已知的 Motif 模型对序列进行扫描(Scanning),而是基于用于提供的序列信息独立计算出的,即 全新 的Motif。
输入:Fasta 序列
输出:序列中 预测包含 的 Motif
1. MEME
MEME 是最基本的挖掘 Motif 模块,可以在 少量(<50) 的序列中挖掘 全新(novel)、无间隙(ungapped) 的 Motif。如果序列中存在长度不定的 Motif,MEME 会将其分割为两个或多个单独的 Motif。
注意,MEME 在挖掘 Motif 时使用的阈值是挖掘到的 Motif 的数量,而非 Motif 的可信度(E-value)。所以使用 MEME 时,需要提供想要从序列中挖掘到的 Motif 的数量,同时也要检查挖掘到的 Motif 的可信度。
注意,使用 Discriminative mode 或 Differential Enrichment mode 两种模式时,用户需要向 MEME 提交第二个序列文件,MEME 会以第二个序列文件作为对照,挖掘在第一个文件序列中 富集 的 Motif。
image2. STREME
相比 MEME 可以在 大量(>50) 的序列中挖掘 全新、无间隙、富集 的 Motif。STREME 挖掘富集 Motif 时使用的对照序列有两种来源:
重排输入序列(DNA 序列以 3 个字符为整体进行重排)作为对照序列,无需额外提供对照序列(默认);
用户上传对照序列。
注意,以相同的序列作为输入时,MEME 挖掘的 Motif 较长,许多 Motif 的长度 >20,而 STREME 挖掘的 Motif 较短(约10)
image二、富集 Motif(Motif Enrichment)
富集 Motif 是指:以一组序列为对照组,挖掘在另一组序列中 富集且已知 的 Motif。
输入:Fasta 序列
输出:序列中 富集且已知 的 Motif
1. AME (Analysis of Motif Enrichment)
AME 挖掘序列中 已知、富集 的 Motif。因为是挖掘已知的 Motif,所以使用 AME 要指定 Motif 数据库。判断 Motif 是否富集的方式与 STREME 一致。
image2. CentriMo
CentriMo 挖掘序列中 固定位点(局部)、已知、富集 的Motif。相比 AME,CentriMo 的特点是找寻固定位点处的已知 Motif,即 Motif 处在所有序列中相同的位置,要求输入的序列长度必须相等。CentriMo 默认只寻找输入序列中间区段内已知的 Motif,适合 ChIP-Seq 数据,用于快速 寻找ChIP-Seq 的峰中所包含的已知 Motif。CentriMo 也可以寻找输入序列所有区段内已知的 Motif,适用于 寻找启动子区内的已知Motif 等。
image三、扫描 Motif(Motif Scanning)
扫描 Motif 是指:用特定 Motif(用户上传)扫描序列(公共数据库或用户上传),筛选出包含特定 Motif 的序列。
输入:Motif 模型
输出:包含 Motif 的 序列
1. FIMO
FIMO 是最基本的扫描 Motif 模块,筛选出包含用户上传 Motif 的序列,筛选出的 序列可能包含多个 Motif。
image2. MAST
相比 FIMO,MAST 筛选出的序列只展示 最佳匹配 的 Motif,即 每个序列只包含一个Motif。
3. MCAST
扫描序列为基因组,挖掘基因组上用户上传的 Motif 的富集区域。用户可以将某蛋白复合体的 DNA bind Motif 上传给MCAST,寻找此蛋白复合体在 染色体上 可能的结合位点等。
image四、比较 Motif(Motif Comparison)
比较 Motif 是指:将 用户上传的 Motif 与数据库中 已知的 Motif 比较,筛选出与上传 Motif 相似的已知 Motif。可以将挖掘 Motif 模块找到的 Motif 作为输入,寻找数据库中与其相似的 Motif,预测挖掘到 Motif 的功能。 注意,AME 的输入是序列,Tomtom 的输入是 Motif。
输入:Motif 模型
输出:已知 的 Motif 模型
工具:Tomtom
image-------------------------------------------------------------------------------------------------------------------------------------------------------------I'm a line ! Thanks for your attention !----------------------------------------------------------------------------------------------------------------
参考
链接:https://www.jianshu.com/p/b1e0429e5897
链接:https://www.jianshu.com/p/2c7be8e7ecfa