常用miRNA靶基因预测工具

2020-09-17 本文已影响0人大号在这里

一、简单介绍

miRNA主要通过与靶mRNA的结合，或促使mRNA降解，或阻碍其翻译，从而抑制目的基因的表达。用生物信息学方法准确快速地预测miRNA的靶基因，可以为研究miRNA功能提供线索。

植物miRNA 靶基因的预测比较简单, 因为在植物中miRNA与靶基因几乎以完全互补配对的方式结合, 预测时无需复杂的算法。

计算方法的预测主要依赖于已经验证的miRNA和靶基因间的结合的规律。主要原则有：miRNA 与其靶位点在种子区域互补；miRNA 靶位点在不同物种之间保守； miRNA-mRNA 双链之间的热力学稳定性好； miRNA 靶位点处不应有复杂二级结构；miRNA 5′ 端与靶基因的结合能力强于3′端。还有其它原则如多个靶位点现象的存在等。

十年来开发出的miRNA 靶基因预测软件很多，一些软件的推出时间见下图所示。

二、几种常见的预测软件有：

1) miRanda.

它是最早的miRNA靶基因预测软件。它对3′UTR 的筛选依据主要是序列匹配、miRNA 与mRNA 双链的热稳定性以及靶位点的跨物种保守性。适用范围广泛。对于潜在的杂交位点，miRanda也给予打分。miRanda 选取每条miRNA相对的3′UTR 中排名前10 位的基因,作为miRNA的候选靶基因。对于多个miRNA 对应于同一靶位点的情况, miRanda 使用贪心算法选取其中得分最高且自由能最低的那一对。

网址：http://www.microrna.org/microrna/home.do

1.miRanda的下载与安装

1 wget http://cbio.mskcc.org/microrna_data/miRanda-aug2010.tar.gz
2 tar -xzvf miRanda-aug2010.tar.gz
3 cd /path/to/miRanda-3.3a4 ./configure --prefix=/path/to/miRandada-aug2010 #--prefix最好设置为当前文件夹的路径
5 make install

2. 用法
miRanda两个文件，但是格式有所不同。文件格式如下：

# miRNA文件格式  miRNA9606.fa
>hsa-miR-9500
AAGGGAAGAUGGUGACCAC
>hsa-miR-8485
CACACACACACACACACGUAU
>hsa-miR-8088
CCUCGGUACUGGAAAGGGGUA

# lncRNA UTR文件格式   SEMA3B.fa
>SEMA3B-AS1
AACCCCAGCTCCAGGGGCTCAGCAGGCAAAGGGAATCACTGAGTGGGGGCACCACCCGTGGACTCCAATATCTCAACCTCTCCCTCCACAGGTTGGAGGTGGGAGGAACAACCCCCACCAAACCCAGAGCCGAAAACTGAGGGAGTTTTACAGACAGGACGGAGCTCCTGCACCTCGGAGCCTCAGTTGGGAATGACCTGGGGTCTTGTCCTGAAGCTGAGTCTGGTGAACGTGCCCCATTTGTAACATGAGGGGTACTTCTCTGGAGGGACTGTATGTTGACAGTGGCAGAGTGGAGCCCTGAAGTCCACCTGAGTGAATATACCAGGGCTTGAGAAAAAAAAAAAAAAAAAAAAA

miranda miRNA9606.fa SEMA3B.fa -out All_miRNA.expressed.fa.out.0 -sc 150.0 -en -30 -scale 4.0 -go -2.0 -ge -8.0 -quiet
#从中提取出关键信息
grep '>' All_miRNA.expressed.fa.out.0 >All_miRNA.expressed.fa.out.0.miRanda.aln
#最后得到的文件即为miRNA与靶基因，最后将结果输入cytoscape画网络图。

赫赫有名的miRNA靶标预测软件，不受物种限制，支持在线和本地，支持各种平台，在线只支持少数的几个物种，本地运行就没了物种限制，结果包括ID、位置、得分和吉布斯自由能等信息

整理后

2) targetScan

1. targetScan的下载

① To identify conserved miRNA targets and nonconserved sites using a custom set of data, download the Perl script.
② To calculate context scores for a set of predicted miRNA sites in a custom set of data, download the Perl script.**
③To calculate conserved branch length and P_CT for each predicted target in a custom set of data, download the Perl script.

2. targetScan用法

需要准备两个文件，一个miRNA序列种子文件和lncRNA UTR序列文件。文件格式如下：

#miRNA文件格式 miR_9606_info.txt
#MiRBase ID Seed+m8 Species ID
hsa-miR-9500    AGGGAAG 9606
hsa-miR-8485    ACACACA 9606
hsa-miR-8088    CUCGGUA 9606
hsa-miR-8087    AAGACUU 9606
hsa-miR-8086    GCUAGUC 9606
hsa-miR-8084    AAUACUA 9606

# lncRNA UTR文件格式 SEMA3B.fa
SEMA3B-AS1  9606    AACCCCAGCTCCAGGGGCTCAGCAGGCAAAGGGAATCACTGAGTGGGGGCACCACCCGTGGACTCCAATATCTCAACCTCTCCCTCCACAGGTTGGAGGTGGGAGGAACAACCCCCACCAAACCCAGAGCCGAAAACTGAGGGAGTTTTACAGACAGGACGGAGCTCCTGCACCTCGGAGCCTCAGTTGGGAATGACCTGGGGTCTTGTCCTGAAGCTGAGTCTGGTGAACGTGCCCCATTTGTAACATGAGGGGTACTTCTCTGGAGGGACTGTATGTTGACAGTGGCAGAGTGGAGCCCTGAAGTCCACCTGAGTGAATATACCAGGGCTTGAGAAAAAAAAAAAAAAAAAAAAA

脚本可从targetScan下载，是个perl脚本，用之前需要安装Perl.

perl ../targetscan_70.pl miR_9606_info.txt SEMA3B.fa target_Results.txt

3）RNAhybrid

输入文件格式跟miRanda是一样的，可从github下载，解压编译后可用。

RNAhybrid -c -p 0.05 -s 3utr_human -t SEMA3B.fa -q miRNA9606.fa |awk -F ":" '{print $1"\t"$3}'|uniq >RNAhybrid_results.txt

# RNAhybrid的选项参数如下
options:
  -b <number of hits per target>
  -c compact output
  -d <xi>,<theta>
  -f helix constraint
  -h help
  -m <max targetlength>
  -n <max query length>
  -u <max internal loop size (per side)>
  -v <max bulge loop size>
  -e <energy cut-off>
  -p <p-value cut-off>
  -s (3utr_fly|3utr_worm|3utr_human)
  -g (ps|png|jpg|all)
  -t <target file>
  -q <query file>

4）TargetFinder

用到的软件是TargetFinder，软件的具体安装见：https://github.com/carringtonlab/TargetFinder。它依赖于fasta-35。

The FASTA package - protein and DNA sequence similarity searching and alignment programs，下载链接：http://faculty.virginia.edu/wrpearson/fasta/fasta33-35/
。下载解压之后，fasta-35版本的安装看README文件

To make the standard FASTA programs:
   cd src
   make -f ../make/Makefile.linux_sse2 all
The executable programs will then be found in ../bin

注意TargetFinder只能用fasta-35，虽然github上面有fasta36: https://github.com/wrpearson/fasta36

如何使用？

targetfinder_threads.pl -f sRNA.fa -d ~/ref/Aegilops_tauschii.Aet_v4.0.cds.all.fa -t 8 -p gff -o tmp.predicted_targets3.txt
#-f: fasta格式的小RNA序列文件
#-d: 候选序列，此处是cds序列
#-t: 设置线程
#-p: 设置输出格式，还有：classic、table等
#-o: 输出结果文件
less tmp.predicted_targets3.txt | grep "^No" -v | sort -k1,1 | less > predicted_targets3.txt
rm -f tmp.predicted_targets3.txt

此外还有两个参数：-c和-r。-c表示预测分值，默认是4，越小越好。-r就比较纠结了。我目前的认识是这样的：