去PCR冗余
ref:你真的懂Illumina数据质量控制吗? | hope
1. FastQC察看
2. 进行reads的修剪和过滤
Short-insert paired end reads
接头序列:
>PrefixPE/1
TACACTCTTTCCCTACACGACGCTCTTCCGATCT
>PrefixPE/2
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT
Trimmomatic等通常的质控软件。
Long Mate Pair libraries
针对此类数据的处理软件主要是:nextclip和skewer,从文章结果来看后者略优。
处理软件:nextclip (同时移除PCR duplicates)
nextclip -d -i xxx_R1.fastq -j xxx_R2.fastq -o output
若出现:too much rehashing!! Rehash=26的错误信息
则增大[-n | --number_of_reads] Approximate number of reads (default 20,000,000)参数值;
nextclip -d -e -i xxx_R1.fastq -j xxx_R2.fastq -o output -n 30000000
处理软件: skewer
skewer -mmp -i xxx_R1.fastq xxx_R2.fastq -o output -t 5
3. FastUniq 去除 paired reads 的PCR重复
建议先trim,然后在来用这个软件来去除dup,因为,这个软件是比较以后,随机保留相同的pair的中一个,如果不先trim,容易保留质量差的哪一个,而且即使trim后,它也能处理不同长度的pair。 【每日一生信—FastUniq去除paired reads的duplicates】
cat AS285.list
AS285A_R1.clean.fastq
AS285A_R2.clean.fastq
fastuniq -i AS285.list -o xxx_R1.rd.clean.fastq -p xxx_R2.rd.clean.fastq
4. 进行reads 的纠正
BLESS和Musket有相似的纠正结果,前者一直报错;
bless -read1 xxx_R1.rd.clean.fastq -read2 xxx_R2.rd.clean.fastq -prefix xxx -kmerlength 31
Musket - a multistage k-mer spectrum based corrector:
musket xxx_R1.rd.clean.fastq xxx_R2.rd.clean.fastq -o multi AS485 -inorder -p10
本文作者: tiramisutes
感谢!