chapter24:seqkit使用

2020-03-04 本文已影响0人 esroom

查看fastq总体信息

root:~/refs# seqkit stat duplicated-reads.fq.gz

seqkit fx2tab

1.取序列名
seqkit fx2tab -n -i duplicated-reads.fq.gz | head
2.查看gc含量
seqkit fx2tab -n -i -g duplicated-reads.fq.gz | head
3.查看序列中任意碱基（或组合）的含量
seqkit fx2tab -n -i -B A -B T duplicated-reads.fq.gz | head

seqkit sample

用于从文件中取部分序列用于分析，可以按数量或者按比例选择。
1.按照数量选择（数量不一定准确）
seqkit sample -n 1000 duplicated-read.fa.gz | head
2.按照比例选择
seqkit sample -p 0.001 duplicated-reads.fq.gz

seqkit grep

用于匹配需要的序列
按照文件中名字匹配（一行只能存储一个名字）
seqkit grep -f id.txt duplicated-reads.fq.gz
注意保存序列名用seqkit seq -n - i，用seqkit fx2tab -n -i 在名字后面会带有空格

seqkit rmdup

可依据名字或者序列移除重复序列