生信转录组

Barrnap预测rRNA基因

2021-06-07  本文已影响0人  胡童远

barrnap是BAsic Rapid Ribosomal RNA Predictor(基础rRNA快速预测其)简写。barrnap可以预测细菌bacteria (5S,23S,16S), 古菌archaea (5S,5.8S,23S,16S), 多细胞生物线粒体metazoan mitochondria (12S,16S) 和真核生物eukaryotes (5S,5.8S,28S,18S)基因组中rRNA基因的位置。barrnap以DNA fasta序列作为输入,输出gff3结果文件。使用nhmmer/hmmer3.1进行DNA/RNA比对。支持多线程加速计算。

Github地址:https://github.com/tseemann/barrnap

conda安装

conda install -c bioconda -c conda-forge barrnap

git安装

git clone https://github.com/tseemann/barrnap.git
cd barrnap/bin
./barrnap --help

git下载内容:

测试:

/bin/barrnap \
--kingdom bac \
--threads 4 \
--outseq test.fa \
examples/small.fna > test.gff3

[barrnap] ERROR: Can not find required 'bedtools' in PATH

安装依赖:bedtools

conda activate r403
conda install bedtools
bedtools --help

运行barrnap

/bin/barrnap \
--kingdom bac \
--threads 4 \
--outseq test.fa \
examples/small.fna > test.gff3

--outseq: 保存结果序列; > 输出汇总表
--kingdom: 物种界 euk bac arc mito
--evalue default '1e-06'

结果

cat test.gff3
##gff-version 3
P.marinus       barrnap:0.9     rRNA    353314  354793  0       +       .       Name=16S_rRNA;product=16S ribosomal RNA
P.marinus       barrnap:0.9     rRNA    355464  358334  0       +       .       Name=23S_rRNA;product=23S ribosomal RNA
P.marinus       barrnap:0.9     rRNA    358433  358536  9.6e-07 +       .       Name=5S_rRNA;product=5S ribosomal RNA

从gff文件中提取rRNA位置信息

## 抽提rna位置信息
plat="bgi"
plat="illumina"

touch barrbap_${plat}_length.txt
echo -e "id\tstart\tend\ttype" >> barrbap_${plat}_length.txt

for i in `ls ./gff`;
do
    base=${i%.gff3}
    cat ./gff/$i | sed 's/=/\t/g' | sed 's/;/\t/g' | grep -v '^#' | awk -F"\t" -v tmp=$base '{printf("%s\t%s\t%s\t%s\n", tmp, $4, $5, $10)}' >> barrbap_${plat}_length.txt
    echo -e "\033[32m$i done...\033[0m"
done
id      start   end     type
AF04-12 48      153     5S_rRNA
AF04-12 243     3080    23S_rRNA
AF04-12 3514    5037    16S_rRNA
AF04-17 6       111     5S_rRNA
AF04-17 196     3065    23S_rRNA
AF04-17 3628    5152    16S_rRNA
AF04-17 2       1159    23S_rRNA
AF04-17 2       890     16S_rRNA
AF04-17 1       486     16S_rRNA

提取16S rRNA位置信息

cat barrbap_bgi_length.txt | awk '{if($4=="16S_rRNA" || $4=="type") print $0}' > barrbap_bgi_length_16S.txt
cat barrbap_illumina_length.txt | awk '{if($4=="16S_rRNA" || $4=="type") print $0}' > barrbap_illumina_length_16S.txt
id      start   end     type
AF04-12 3514    5037    16S_rRNA
AF04-17 3628    5152    16S_rRNA
AF04-17 2       890     16S_rRNA
AF04-17 1       486     16S_rRNA
AF04-28 2       590     16S_rRNA
AF04-28 164     1155    16S_rRNA
AF11-25B        307     1740    16S_rRNA
AF13-35 103     1647    16S_rRNA
AF14-49 234     1755    16S_rRNA

这里会发现,一个基因组会出现多条5S 23S 16S,可能是组装错误引起的,为了方便研究可以针对比较完整的(1.5KB)左右的16S rRNA进行分析。

上一篇 下一篇

猜你喜欢

热点阅读