mRNA-seq学习(二):Bowtie2比对
2019-03-20 本文已影响0人
TOP生物信息
1. 比对之前需要考虑哪些问题
1. 选什么作为参考序列
- 基因组序列
既能做表达定量,还能发现新的基因和转录本 - 转录本序列(CDS / cDNA / 基因集)
表达定量
2 gff/gtf的作用
- 在比对的过程中,提供基因组注释文件可以指导spliced reads的定位
- 在统计reads数的时候,提供区间参考
3 选择合适的比对工具
主要考虑是否需要spliced alignment
Bowtie
、bwa
- 原核生物没有内含子,不存在可变剪接
- 小RNA的产生也没有可变剪接过程
- 比对到转录本序列(因为已经是接好的序列)
Tophat
、STAR
、hisat2
- 比对到基因组且基因有内含子
2. Bowtie2比对
2.1 Bowtie与Bowtie2有什么区别
- Bowtie更适合短序列的比对,如小RNA测序reads; 另外它不允许gap
- Bowtie2更适合长序列(50碱基以上)的比对;允许gap
2.2 建索引
bowtie2-build -f Arabidopsis_thaliana.TAIR10.dna.toplevel.fa TAIR10.bybowtie
$ ls
TAIR10.bybowtie.1.bt2 TAIR10.bybowtie.3.bt2 TAIR10.bybowtie.rev.1.bt2
TAIR10.bybowtie.2.bt2 TAIR10.bybowtie.4.bt2 TAIR10.bybowtie.rev.2.bt2
2.3 比对
bowtie2 -q --phred33 -p 8 --no-unal -x TAIR10.bybowtie \
-1 SRR3286804_1.fastq.gz -2 SRR3286804_2.fastq.gz -S SRR3286804.sam
#参数说明
-q: 输入文件为fastq
--phred33: 测序碱基的质量体系,现在基本都是33
-p: 线程数
--no-unal:不保留未必对上的记录
-x:索引前缀
-S:sam格式输出