mouse和human的rRNA参考序列数据库

2019-04-04  本文已影响0人  njmujjc

1. ##从rfam下载所有的序列##

wget ftp://ftp.ebi.ac.uk/pub/databases/Rfam/12.0/fasta_files/*

cat RF*.gz>Rfam.all.fa.gz

##Convert a multi-line FASTA file to a single-line FASTA file:

zcat Rfam.all.fa.gz | fasta_formatter -w 0 | gzip >Rfam.nowrap.fa.gz

##Remove empty lines, replace spaces with underscores, and keep just "ribosomal" sequences:

zcat Rfam.all.nowrap.fa.gz | sed'/^$/d' | sed's/\s/_/g' | awk'BEGIN {RS=">"; ORS="";} tolower($1) ~ /ribosomal_rna/ {print ">"$0}' | gzip >Rfam.rRNA.nowrap.fa.gz

####Set a variable for species of interest. For example:

species="homo_sapiens"

species="mus_musculus"

species="drosophila_melanogaster"

species="mycobacterium"

species="mycobacterium_tuberculosis"

####Extract species-specific ribosomal sequences:

zcat Rfam.rRNA.nowrap.fa.gz | grep -A 1 -i"${species}" | grep -v'^--$' | fasta_formatter -w 80 > rRNA.${species}.fa

###建立索引##

samtools faidx rRNA.${species}.fa

bowtie2-build rRNA.${species}.fa rRNA.${species}

2. 从ensemble下载ncRNA.fa

##Convert a multi-line FASTA file to a single-line FASTA file:

zcat Homo_sapiens.GRCh38.ncrna.fa.gz | fasta_formatter -w 0 | gzip > Rfam.nowrap.fa.gz

##提取rRNA

grep -A 1 "rRNA" Rfam.nowrap.fa > hg19.rRNA.fa

##将两个数据库得到的fa合并在一起

cat hg19.rRNA.fa  rRNA.${species}.fa > all.human.rRNA.fa

问题:这样建的库仍然不是完整的rRNA databse,目前还没有找到一个完整的rRNA数据库。。

上一篇下一篇

猜你喜欢

热点阅读