miR-PREFeR:植物miRNA预测
对于miRNA大家应该都不陌生,是一段长度在21-23nt的单链非编码RNA序列。
microRNA, abbreviated miRNA or miR, are short, highly conserved, non-coding RNAsthat play an important role in the complex network of gene regulation,especially in gene silencing. MicroRNAs regulate gene expression highly specifically at the post-transcriptional level. In general, microRNAs have a size of 21 to 23 nucleotides (nt).
引自维基百科[MicroRNA]
对于已发表的miRNA鉴定,使用测序数据与标准数据库进行比对即可;对于新的miRNA,就需要借助一些软件进行预测。目前已发表的用于预测miRNA的软件很多,今天给大家介绍一款miRNA预测的软件miR-PREFeR,针对的是植物物种的miRNA预测,内容主要来源于软件发表的文献。
文献:miR-PREFeR: an accurate, fast, and easy-to-use plant miRNA prediction tool using small RNA-Seq data
发表年份:2014
期刊:Bioinformatics
引用频次:91
github:https://github.com/hangelwen/miR-PREFeR
miRNA预测的优缺点
只要是预测软件,就不能百分之百的保证预测结果完全正确。对于植物的miRNA预测而言,目前软件的弊端主要有一下几个。
- 假阳性比较高,也就是预测得到的结果高于真实值
- CPU或者内存资源消耗比较多,可以理解为运行时间长
- 物种支持度低,对于某些小众物种,没有对应的数据库数据进行参照
- 某些软件依赖关系复杂,难以安装
miR-PREFeR软件是python语言编写的,免安装;不过运行时依赖ViennaRNA包(说实话,这个不好装);软件支持断点续投,这也算是很大的一个优点了,毕竟断掉重来真的很费事。
软件及依赖包的安装大家参考官网说明即可,不再赘述。
miR-PREFeR使用
输入数据
软件输入数据很简单,比对结果以及参考基因组,如果有gff文件,可以辅助。也就是说只要有能用的参考基因组,就可以进行预测。参考基因组等信息统一在配置文件中指定,示例如下。
#Genomic sequence file in fasta format. Absolute path perfered. If a path
#relative if used, it's relatvie to the working directory where you execute
#the pipeline.
FASTA_FILE = ./TAIR10.chr1.fa
#Small RNA read alignment file in SAM format. The SAM file should contain
#the SAM header. If N samples are used, then N file names are listed here,
#separated by comma. please note that before doing alignment, process the
#reads fasta files using the provided script 'process-reads-fasta.py' to
#collapse and rename the reads. Absolute path perfered. If a path
#relative if used, it's relatvie to the working directory where you execute
#the pipeline.
ALIGNMENT_FILE = ./cold.chr1.sam, ./pdep.chr1.sam, ./pind.chr1.sam
软件使用的是所有样本数据,一来整合所有样本数据,增加可信度,二来进行相互矫正,提高低表达miRNA的预测成功率。
准备完成后,运行很简单,执行 python /software_path/miR_PREFeR.py -L -k pipeline config.example即可。
输出数据
输出数据有多种格式,其中最简单明了的是html文件,相当于分析报告,示例如下。
miRNA-report-lendis对预测得到的数据进行统计并给出相应的序列。
miRNA-report-blast除此之外,报告中还会给出miRBase数据库链接,可以进行blast比对,查看数据库中相似序列的信息,可以说是非常人性化了,点击之后的结果如下。
miRNA-miRBase与其他软件的对比
这款软件的最大创新点就在于保证检出灵敏度的情况下,极大地减少了假阳性比率,以下是与各软件的对比。
miRNA-software-compare对于软件的分析结果,77.8%的预测miRNA与已知的miRNA起始位置相同,81%的长度完全一致,98.4%的预测结果与已知的有1nt的差别(并不清楚为什么这么比,不应该是直接说有多少和已知的完全一样?)。
软件分析原理
- 筛选潜在的区间
因为是miRNA测序,理论上成熟的miRNA区域的测序深度应该更高,软件第一步就是根据这个条件筛选潜在的miRNA-peak区域。
miRNA-peak选定peak之后,会进行侧翼扩展用于筛选miRNA前体序列,示例如下。
miRNA-region对于临近的两个峰值,会进行整合,筛选后获得一个区间;对于单一峰值,会向侧翼进行扩展形成两个区域。
- miRNA预测
miRNA预测时遵循两个标准
- 序列能形成稳定的颈环结构(miRNA预测的经典结构)
- 成熟miRNA区域高深度覆盖,侧翼序列至少有一条reads覆盖;若没有侧翼覆盖数据,适当提高成熟区覆盖度阈值
参考文献:
[1] https://doi.org/10.1093/bioinformatics/btu380
#如有侵权,请告知删除#
#如有错误,欢迎指正#