一起生信啦啦啦科研信息学

去PCR冗余

2018-08-06  本文已影响1人  苏牧传媒

ref:你真的懂Illumina数据质量控制吗? | hope

1. FastQC察看

2. 进行reads的修剪和过滤

Short-insert paired end reads

接头序列:

>PrefixPE/1

TACACTCTTTCCCTACACGACGCTCTTCCGATCT

>PrefixPE/2

GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT

Trimmomatic等通常的质控软件。

Long Mate Pair libraries

针对此类数据的处理软件主要是:nextclip和skewer,从文章结果来看后者略优。

处理软件:nextclip (同时移除PCR duplicates)

nextclip -d -i xxx_R1.fastq -j xxx_R2.fastq -o output

若出现:too much rehashing!! Rehash=26的错误信息

则增大[-n | --number_of_reads] Approximate number of reads (default 20,000,000)参数值;

nextclip -d -e -i xxx_R1.fastq -j xxx_R2.fastq -o output -n 30000000

处理软件: skewer

skewer -mmp -i xxx_R1.fastq xxx_R2.fastq -o output -t 5

3. FastUniq 去除 paired reads 的PCR重复

建议先trim,然后在来用这个软件来去除dup,因为,这个软件是比较以后,随机保留相同的pair的中一个,如果不先trim,容易保留质量差的哪一个,而且即使trim后,它也能处理不同长度的pair。 【每日一生信—FastUniq去除paired reads的duplicates

cat AS285.list

AS285A_R1.clean.fastq

AS285A_R2.clean.fastq

fastuniq -i AS285.list -o xxx_R1.rd.clean.fastq -p xxx_R2.rd.clean.fastq

4. 进行reads 的纠正

BLESS和Musket有相似的纠正结果,前者一直报错;

BLESS:

bless -read1 xxx_R1.rd.clean.fastq -read2 xxx_R2.rd.clean.fastq -prefix xxx -kmerlength 31

Musket - a multistage k-mer spectrum based corrector:

musket xxx_R1.rd.clean.fastq xxx_R2.rd.clean.fastq -o multi AS485 -inorder -p10

本文作者: tiramisutes

感谢!

上一篇下一篇

猜你喜欢

热点阅读