生物信息学与算法一起生信啦啦啦生物信息杂谈

去除PCR冗余

2018-08-16  本文已影响8人  苏牧传媒

在fastq水平:

FastUniq

ref官网: FastUniq download | SourceForge.net

使用:

 建议先trim,然后在来用这个软件来去除dup,因为,这个软件是比较以后,随机保留相同的pair的中一个,如果不先trim,容易保留质量差的哪一个,而且即使trim后,它也能处理不同长度的pair。

1.建立一个list配置文件来存放你的测序数据路径:

/home/fanyc/xxx.fq

/home/fanyc/xxx.fq

2.命令:

fastuniq -i list -o xxx_R1.fq -p XXX_R2.fq -t q

-i :输入文件的格式

-t : 输出文件的格式

 q : FASTQ format into TWO output files

 f : FASTA format into TWO output files

 p : FASTA format into ONE output file

 default = q

ref博客:【T】每日一生信--FastUniq去除paired reads的duplicates_铁汉1990_新浪博客


在sam/bam水平:

picard

ref网站:Picard Tools - By Broad Institute

使用:

java -jar picard.jar MarkDuplicates \

I=xxx.sorted.bam \

O=xxx.sorted.markdup.bam \

M=xxx.markdup.txt

直接删除冗余:

java -jar picard.jar MarkDuplicates \

REMOVE_DUPLICATES =true \

I=xxx.sorted.bam \

O=xxx.sorted.markdup.bam \

M=xxx.markdup.txt


samtools

ref: samtools 使用说明

samtools markdup [-l length] [-r] [-s] [-T] [-Sin.algsort.bam out.bam

-l INT Expected maximum read length of INT bases. [300]

-r Remove duplicate reads.

-s Print some basic stats.

-T PREFIX Write temporary files to PREFIX.samtools.nnnn.mmmm.tmp

-S Mark supplementary reads of duplicates as duplicates.

需要四步:

samtools sort -n  xxx.bam -o xxx.sort.bam

samtools fixmate -m xxx.sort.bam xxx.fixmate.bam

samtools sort  xxx.fixmate.bam -o xxx.positionsort.bam

samtools markdup -r xxx.positionsort.bam xxx.markdup.bam

all:

samtools sort -n  xxx.bam | samtools fixmate -m | samtools sort | samtools markdup -r > xxx.markdup.bam

上一篇下一篇

猜你喜欢

热点阅读