小教程收藏所遇生信问题

比对率不理想-污染检测

2020-03-26  本文已影响0人  小鹏_哒哒哒

污染检测,即通过blast,对样本的序列进行nt总库比对,看样本reads中不同物种的占比情况。

在进行基因组比对时,发现部分或者全部样本比对率低于80%,或者是两样本之间比对率相差超过10%,就需要抽取reads(paired)进行污染检测。

首先,我们选择1-2个比对率较高的作为对照,以及比对率低的样本(样本很多的可选部分样本),抽取测序的双端reads。

seqtk sample -s100 Sample.R1.fastq.gz 100000 |seqtk seq -a - >Sample.20W.fa &&
seqtk sample -s100 Sample.R2.fastq.gz 100000 |seqtk seq -a - >>Sample.20W.fa


而后,通过blast比对结果,看比对率低的样本中是掺杂了什么物种的序列。
各抽取10W 条reads,合并20W reads,其中seqtk seq -a 将fq转fa。

blastn -query Sample.20W.fa -db nt/nt -outfmt '6 staxids qseqid sseqid pident length mismathch gapopen qstart qend sstart send evalue bitscore qcovs' -evalue 1e-10 -max_target_seqs 1 -out pollution_test/Sample.20W.nt.txt -num_threads 10
less Sample.20W.nt.txt|awk '{a[$1]++}END{for( i in a){print i,a[i] | "sort -nrk 2"}}' |head



进阶:

上一篇 下一篇

猜你喜欢

热点阅读