常用miRNA靶基因预测工具
一、简单介绍
miRNA主要通过与靶mRNA的结合,或促使mRNA降解,或阻碍其翻译,从而抑制目的基因的表达。用生物信息学方法准确快速地预测miRNA的靶基因,可以为研究miRNA功能提供线索。
植物miRNA 靶基因的预测比较简单, 因为在植物中miRNA与靶基因几乎以完全互补配对的方式结合, 预测时无需复杂的算法。
计算方法的预测主要依赖于已经验证的miRNA和靶基因间的结合的规律。主要原则有:miRNA 与其靶位点在种子区域互补;miRNA 靶位点在不同物种之间保守; miRNA-mRNA 双链之间的热力学稳定性好; miRNA 靶位点处不应有复杂二级结构;miRNA 5′ 端与靶基因的结合能力强于3′端。还有其它原则如多个靶位点现象的存在等。
十年来开发出的miRNA 靶基因预测软件很多,一些软件的推出时间见下图所示。
二、几种常见的预测软件有:
1) miRanda.
它是最早的miRNA靶基因预测软件。它对3′UTR 的筛选依据主要是序列匹配、miRNA 与mRNA 双链的热稳定性以及靶位点的跨物种保守性。适用范围广泛。对于潜在的杂交位点,miRanda也给予打分。miRanda 选取每条miRNA相对的3′UTR 中排名前10 位的基因,作为miRNA的候选靶基因。对于多个miRNA 对应于同一靶位点的情况, miRanda 使用贪心算法选取其中得分最高且自由能最低的那一对。
1.miRanda的下载与安装
1 wget http://cbio.mskcc.org/microrna_data/miRanda-aug2010.tar.gz
2 tar -xzvf miRanda-aug2010.tar.gz
3 cd /path/to/miRanda-3.3a4 ./configure --prefix=/path/to/miRandada-aug2010 #--prefix最好设置为当前文件夹的路径
5 make install
2. 用法
miRanda两个文件,但是格式有所不同。文件格式如下:
# miRNA文件格式 miRNA9606.fa
>hsa-miR-9500
AAGGGAAGAUGGUGACCAC
>hsa-miR-8485
CACACACACACACACACGUAU
>hsa-miR-8088
CCUCGGUACUGGAAAGGGGUA
# lncRNA UTR文件格式 SEMA3B.fa
>SEMA3B-AS1
AACCCCAGCTCCAGGGGCTCAGCAGGCAAAGGGAATCACTGAGTGGGGGCACCACCCGTGGACTCCAATATCTCAACCTCTCCCTCCACAGGTTGGAGGTGGGAGGAACAACCCCCACCAAACCCAGAGCCGAAAACTGAGGGAGTTTTACAGACAGGACGGAGCTCCTGCACCTCGGAGCCTCAGTTGGGAATGACCTGGGGTCTTGTCCTGAAGCTGAGTCTGGTGAACGTGCCCCATTTGTAACATGAGGGGTACTTCTCTGGAGGGACTGTATGTTGACAGTGGCAGAGTGGAGCCCTGAAGTCCACCTGAGTGAATATACCAGGGCTTGAGAAAAAAAAAAAAAAAAAAAAA
miranda miRNA9606.fa SEMA3B.fa -out All_miRNA.expressed.fa.out.0 -sc 150.0 -en -30 -scale 4.0 -go -2.0 -ge -8.0 -quiet
#从中提取出关键信息
grep '>' All_miRNA.expressed.fa.out.0 >All_miRNA.expressed.fa.out.0.miRanda.aln
#最后得到的文件即为miRNA与靶基因,最后将结果输入cytoscape画网络图。
赫赫有名的miRNA靶标预测软件,不受物种限制,支持在线和本地,支持各种平台,在线只支持少数的几个物种,本地运行就没了物种限制,结果包括ID、位置、得分和吉布斯自由能等信息
整理后
2) targetScan
1. targetScan的下载
① To identify conserved miRNA targets and nonconserved sites using a custom set of data, download the Perl script.
② To calculate context scores for a set of predicted miRNA sites in a custom set of data, download the Perl script.**
③To calculate conserved branch length and PCT for each predicted target in a custom set of data, download the Perl script.
2. targetScan用法
需要准备两个文件,一个miRNA序列种子文件和lncRNA UTR序列文件。文件格式如下:
#miRNA文件格式 miR_9606_info.txt
#MiRBase ID Seed+m8 Species ID
hsa-miR-9500 AGGGAAG 9606
hsa-miR-8485 ACACACA 9606
hsa-miR-8088 CUCGGUA 9606
hsa-miR-8087 AAGACUU 9606
hsa-miR-8086 GCUAGUC 9606
hsa-miR-8084 AAUACUA 9606
# lncRNA UTR文件格式 SEMA3B.fa
SEMA3B-AS1 9606 AACCCCAGCTCCAGGGGCTCAGCAGGCAAAGGGAATCACTGAGTGGGGGCACCACCCGTGGACTCCAATATCTCAACCTCTCCCTCCACAGGTTGGAGGTGGGAGGAACAACCCCCACCAAACCCAGAGCCGAAAACTGAGGGAGTTTTACAGACAGGACGGAGCTCCTGCACCTCGGAGCCTCAGTTGGGAATGACCTGGGGTCTTGTCCTGAAGCTGAGTCTGGTGAACGTGCCCCATTTGTAACATGAGGGGTACTTCTCTGGAGGGACTGTATGTTGACAGTGGCAGAGTGGAGCCCTGAAGTCCACCTGAGTGAATATACCAGGGCTTGAGAAAAAAAAAAAAAAAAAAAAA
脚本可从targetScan下载,是个perl脚本,用之前需要安装Perl.
perl ../targetscan_70.pl miR_9606_info.txt SEMA3B.fa target_Results.txt
3)RNAhybrid
输入文件格式跟miRanda是一样的,可从github下载,解压编译后可用。
RNAhybrid -c -p 0.05 -s 3utr_human -t SEMA3B.fa -q miRNA9606.fa |awk -F ":" '{print $1"\t"$3}'|uniq >RNAhybrid_results.txt
# RNAhybrid的选项参数如下
options:
-b <number of hits per target>
-c compact output
-d <xi>,<theta>
-f helix constraint
-h help
-m <max targetlength>
-n <max query length>
-u <max internal loop size (per side)>
-v <max bulge loop size>
-e <energy cut-off>
-p <p-value cut-off>
-s (3utr_fly|3utr_worm|3utr_human)
-g (ps|png|jpg|all)
-t <target file>
-q <query file>
4)TargetFinder
用到的软件是TargetFinder,软件的具体安装见:https://github.com/carringtonlab/TargetFinder。它依赖于fasta-35。
The FASTA package - protein and DNA sequence similarity searching and alignment programs,下载链接:http://faculty.virginia.edu/wrpearson/fasta/fasta33-35/
。下载解压之后,fasta-35版本的安装看README文件
To make the standard FASTA programs:
cd src
make -f ../make/Makefile.linux_sse2 all
The executable programs will then be found in ../bin
注意TargetFinder只能用fasta-35,虽然github上面有fasta36: https://github.com/wrpearson/fasta36
如何使用?
targetfinder_threads.pl -f sRNA.fa -d ~/ref/Aegilops_tauschii.Aet_v4.0.cds.all.fa -t 8 -p gff -o tmp.predicted_targets3.txt
#-f: fasta格式的小RNA序列文件
#-d: 候选序列,此处是cds序列
#-t: 设置线程
#-p: 设置输出格式,还有:classic、table等
#-o: 输出结果文件
less tmp.predicted_targets3.txt | grep "^No" -v | sort -k1,1 | less > predicted_targets3.txt
rm -f tmp.predicted_targets3.txt
此外还有两个参数:-c和-r。-c表示预测分值,默认是4,越小越好。-r就比较纠结了。我目前的认识是这样的: