200923 RNAseq-各种比对软件
2020-09-23 本文已影响0人
dicklim
我觉得这个问题在于不同的比对软件擅长的比对环境不一样,可以参考下面这个
那令人困惑的比对工具选择啊~
我目前用过的比对软件有hisat2, tophat两种
之前一直用的hisat2,速度飞快,但是之前处理CLIP比对出来就零点几的比对率,我觉得有问题,虽然后来没调整emmmm
查了一下说是hisat2用的是bowtie2,然后tophat可以指定bowtie2或者bowtie。
bowtie适合50bp以下的片段,bowtie2适合50bp以上的,我觉得可能是CLIP数据太短导致比对效果超级差。
Hisat
hisat2 -p 10 -x ./genome -1 fq -2 fq -S /temp.sam
-p 线程
-x 索引到genome
索引会有多个文件,命名为.ht2,写的时候不要加后面的后缀,就是genome
这个序列文件其实不是压缩文件,所以可以把gz去掉
用ls *gz |while read id;do (mv $id ${id%%.*});done
-S 指定输出的sam文件,temp.sam
subjunc
就是subread
subjunc -T 5 -i hg38 -r fq1 -R fq2 -o temp.sam
-T 线程
-i index也是取到名字就行,比如hg38
-r -R两个比对序列
-o 输出到sam文件(只有sam有用,别的打酱油的可以不管
bowtie2
bowtie2 -p 10 -x /hg38 -1 fq1 -2 fq2 -S temp.sam
和hisat差不多
-x 索引/hg38
tophat
tophat2 -o tophat_fusion -p 15 --fusion-search --keep-fasta-order --bowtie1 --no-coverage-search hg19_bowtie1_index read_1.fastq read_2.fastq
bwa
bwa mem -t 5 -M /hg38 fq1 fq2 > temp.sam
STAR
STAR --chimSegmentMin 10 \
--runThreadN 10 \
--genomeDir hg19_STAR_index \
--readFilesIn read_1.fastq read_2.fastq
sam转bam
samtools -O bam -@ 5 -o out.bam in.sam
批处理:
ls *.sam |while read id ;do (samtools sort -O bam -@ 5 -o $(basename $id ".sam").bam $id);done
ls *.bam |xargs -i samtools index {}