Biostar Handbook学习小组基因组

Biostar_handbook||charpter 13. 短

2018-07-16  本文已影响6人  Dawn_WangTP

Charpter_13 Short Read Aligners

背景

定义:Short read Aligners are commonly used software tools in bioinformatics, designed to align a very large number of short reads(billions).

短序列比对是以2005年二代测序革命所带来的一系列需求性软件,过去测序是一项比较昂贵的事情,所以那时候的比对软件都会以高精度准确性(near-optimal alignments)为准则。二代高通量测序革命以来,生物数据量开始以指数形式开始爆炸性增长,面对这种短读长(50-300),超高通量的数据,科学家开始研究能够将短reads快速准确回帖上基因组数据的算法,并开发相应的软件。高通量数据比对软件雨后春笋般开始出现。

Mapping和Alignment区别

Mapping:

Alignment:

Mapping强调将短reads快速准确的回帖到基因组上的某一位置上,强调的是具体的位置,而不强调序列的完全一致;而Alignment联配强调检索序列和目标序列的每个碱基base都能有最佳匹配。比如SNP,基因结构(indel等)变异检测就强调Alignment,而RNA-seq是比对上基因的定量(相对宏观),强调MAPPPING。

如何选择比对软件

看具体应用场景,比如重测序大多用bwa,转录组用Hisat2,bowtie,Star等。

BWA和Bowtie

BWA由Li Heng大神所开发,运用最为广泛的比对软件。最新的比对算法为mem(maximally exact matches)。aln处理小于100bp的reads,mem处理大于70bp的reads

Bowtie第一个Burrows-Wheeler算法的短读长比对软件。分为bowtie和bowtie2,分别对处理50bp以下,和50bp以上的数据。

比对的基本步骤就是两步:

###获取EBOLA参考基因组
efetch -db nuccore -id AF086833 -format fasta > ebola.fa

### 构建索引
bwa index ebola.fa
bowtie2-build ebola.fa ebola.fa

###下载实验组sra序列
esearch -db sra -query PRJNA257197 |efetch -format runinfo >runinfo.csv
fastq-dump.2 -X 10000 --split-files SRR1972739

###比对,默认参数
REF=ebola.fa
R1=SRR1972739_1.fq
R2=SRR1972739_2.fq

bwa mem $REF $R1 $R2 > output.sam
bowtie2 -x $REF -1 $R1 -2 $R2 >bowtie_out.sam

bowtie2 --very-sensitive-local -x $REF -1 $R1 -2 $R2 >bowtie_out2.sam
bowtie2 -D 20 -R 3 -N 1 -L 20 -x $REF -1 $R1 -2 $R2 >bowtie_out3.sam

## 加上samtools 直接快速sort,多线程-@
bowtie2 -x $REF -1 $R1 -2 $R2 |samtools sort > bowtie_out.sorted.bam
samtools index bowtie_out.sorted.bam
上一篇 下一篇

猜你喜欢

热点阅读