RNA-seq

生物信息百Jia软件(22):featureCounts

2019-08-11  本文已影响0人  基因学苑

欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘!

基因学苑Q群:32798724

编者按

虽然短序列比对工具subread的使用没有bwa和hisat2流行,但是软件包中的featureCounts工具却使用比较广泛。尤其是在利用R语言进行RNAseq分析时,featureCounts几乎成为必须使用的工具。当然说的是R语言版本的featureCounts。

一、功能分类: 

reads计数

二、软件官网:

http://subread.sourceforge.net/

三、软件介绍:

featureCounts是subread软件包中的一共工具,主要用来计算subread比对之后的结果进行reads计数,也就是每个区域有多少条reads比对上了。目前比较常用的reads计算工具有两款,一个是HTseq,另一款就是featureCounts。reads 记数主要用在RNAseq分析中。计算每个基因或者外显子上面的reads数,根据reads数目进行归一化处理,计算RPKM,FPKM,TPM等,然后进行差异比较分析。一般在利用R语言进行RNAseq数据分析时,输入文件基本上都是reads count结果。例如DEseq,DEseq2,edgeR,limma等R包,都需要输入这样的结果,不能直接输入归一化之后的结果,因为这些软件都需要使用自己归一化的方法。所以reads 记数这一步是非常重要的,因此我们单独拿出一节来介绍featureCounts软件,其实我觉得featureCounts的使用人数可能比subread还多。

四、下载安装: 

wgethttps://jaist.dl.sourceforge.net/project/subread/subread-1.6.0/subread-1.6.0-Linux-x86_64.tar.gz

tar -zxvf subread-1.6.0-Linux-x86_64.tar.gz

五、软件使用: 

-a 注释文件,也就是GTF或者GFF文件,通过这个文件才能区分出哪些区域为外显子;

-o 输出结果文件,同样会输出一个以该名字结尾的.summary统计文件;

-F 指定输入注释文件类型,包括GTF,GFF,SAF等;

-t 指定注释文件中功能类型,默认外显子exon

-g 指定注释文件中属性信息,默认为gene_id

-A 如果基因组与注释文件中染色体ID不同,可以通过-A指定一个别名文件,例如有些基因组直接用数字表示染色体号,有些使用chr前缀;

-f 计算级别,以基因还是外显子为单位进行计算;

-M 如何处理多重比对reads

-Q 比对质量值阈值,小于此值的reads不用于计算;

-G 参考序列文件

六、使用案例: 

统计hisat2比对之后的bam文件

featureCounts-p-texon-ggene_id-aannotation.gtf-ocounts.txtmapping_results_PE.bam

七、注意事项:

1、注意多重比对reads分配问题;

上一篇下一篇

猜你喜欢

热点阅读