chapter24:seqkit使用

2020-03-04  本文已影响0人  esroom

查看fastq总体信息

root:~/refs# seqkit stat duplicated-reads.fq.gz

seqkit fx2tab

1.取序列名
seqkit fx2tab -n -i duplicated-reads.fq.gz | head
2.查看gc含量
seqkit fx2tab -n -i -g duplicated-reads.fq.gz | head
3.查看序列中任意碱基(或组合)的含量
seqkit fx2tab -n -i -B A -B T duplicated-reads.fq.gz | head

seqkit sample

用于从文件中取部分序列用于分析,可以按数量或者按比例选择。
1.按照数量选择(数量不一定准确)
seqkit sample -n 1000 duplicated-read.fa.gz | head
2.按照比例选择
seqkit sample -p 0.001 duplicated-reads.fq.gz

seqkit grep

用于匹配需要的序列
按照文件中名字匹配(一行只能存储一个名字)
seqkit grep -f id.txt duplicated-reads.fq.gz
注意保存序列名用seqkit seq -n - i,用seqkit fx2tab -n -i 在名字后面会带有空格

seqkit rmdup

可依据名字或者序列移除重复序列

上一篇下一篇

猜你喜欢

热点阅读