m6ASeq RNA甲基化测序

m6A图文复现03-数据比对之去除rRNA

2021-08-18  本文已影响0人  信你个鬼

在上一期中我们得到了cleandata,接下来是要比对到参考基因上进行比对过程的分析。一般来说,在比对之前,我们可以选择先去除rRNA序列然后再与参考基因组进行比对,文章中采用的策略也是如此:

image-20210713202505327.png

那么你或许会有以下几个随着而来的问题:

rRNA背景知识

在进行具体操作之前,我们可以来先了解一下rRNA这个东西。

首先,看rRNA在整个细胞中的组成比例:从mass指标来看,一个哺乳动物的细胞中rRNA占比最多,能达到80-90%

image-20210713203007244.png

比例:

image-20210713220458206.png

Note:Estimate of RNA levels in a typical mammalian cell。ref:Front Genet. 2015 Jan 26;6:2

rRNA在参考基因组上存在多个copy:比对时会造成数据比对结果中多比率偏高。rRNA的存在对后续的影响就主要看后面的分析使用的是唯一比对reads还是所有比对上的reads了。那么,数据中为什么会测到rRNA呢?这就跟前期建库采用的策略有关系了,去除rRNA的试剂盒的效率等问题。

此次,我们先去文中提到的网址下载rRNA序列,然后使用bowtie2进行比对。

rRNA序列下载

打开NCBI网址,选择Taxonomy数据库,输入10090,10090为小鼠的物种ID

image-20210720003031428.png

选择右侧 Nucleotide

image-20210720003206305.png

保存

image-20210720003726949.png

下载下来的数据:fasta格式

image-20210720003900895.png

确认一下下载是否完整,为82条:

image-20210720004249139.png

rRNA比对保存没有比对上的序列

首先,建索引:

bowtie2-build Mus_musculus.rRNA.fa Mus_musculus.rRNA

索引结果:

image-20210720010555682.png

比对:

mkdir bowtie2

# 换成自己的路径,注意index为索引前缀
index=/path/rRNA_index/Mus_musculus.rRNA 
od=/path/bowtie2

# 单端数据
ls *gz |while read id
do
  sam=${id%_*};
  nohup bowtie2 -x $index --un-gz ${od}/${sam}.derRNA.fq.gz -U $id -p 8 -S ${od}/${sam}.rRNA.mapped.sam 2>${od}/${sam}.log &
done

# 双端数据
可以看文献中的代码,文献中提供的为双端数据

比对完之后的数据:

image-20210714001313058.png

后续更新~

上一篇下一篇

猜你喜欢

热点阅读