microTCGA

miRNA分析--数据过滤(一)

2020-09-19  本文已影响0人  斩毛毛

MicroRNA (miRNA) 是一类内生的、长度约为20-24个核苷酸的小 RNA,其在细胞内具有多种重要的调节作用。每个 miRNA 可以有多个靶基因的表达,而几个 miRNA 也可以调节同一个基因的表达。据推测,miRNA 调节着人类三分之一的基因。

miRNA简要介绍

1、物种

hsa、mmu、rno分别代表人、小鼠、大鼠。

2、类别

mir、MIR、miR分别代表动物未成熟miRNA、植物未成熟miRNA、成熟 RNA。

3、序号

即阿拉伯数字。代表miRNA发现的先后顺序。一般情况下,数字越小,发现越早。

4、高度相似miRNA

对于相似度非常高但又不完全相同(如:仅差一两个碱基)的成熟miRNA,加上一个英文小写字母(a,b,c,…)以示区别。

5、不同前体相同序列成熟miRNA

后面添加的阿拉伯数字是指:一些位于基因组不同部位的DNA序列能够转录加工产生同样的成熟体序列的RNA,为了对其进行区别,在后面加上不同的阿拉伯数字。

6、成熟miRNA产生来源

一些pre-miRNA可以产生两个mature RNA,在对应pre-miRNA茎环结构5’和3’序列的mature miRNA名称尾部加上后缀-5p和-3p以示区分,分别表明从前体的5’端臂和3’端臂加工而来的。

7、低表达量miRNA

两个mature miRNA由同一个pre-miRNA产生,且表达量已知,那么将其中表达量低的mature miRNA尾部加上标识:*。

miRNA 过滤

在进行分析miRNA时候,必要的过滤是少不了的,我一般使用两款软件

软件安装较为简单,直接略过

简单使用

首先选用cutadapt过滤掉接头序列

cutadapt -a AGATCGGAAGAGCACACGTCT -m 18 -M 30 \
   raw.fq --discard-untrimmed -o out_fil.fq

## 参数
-a : 3‘上连接的接头序列, 可找公司要
-m:  过滤掉小于该值的reads
-M:过掉掉大于该值的reads
--discard-untrimmed: 把reads中不含有adaper的reads去掉

接着,使用fastp过滤低质量reads

fastp --disable_adapter_trimming -q 20 -i out_fil.fq -o outcome

##参数
--disable_adapter_trimming: 不需要去接头
-q: 质量低于20过滤
-i: 输入文件

长度统计

最后进行miRNA reads的长度统计,可自行写脚本,并用R画图,简单,略过

上一篇下一篇

猜你喜欢

热点阅读