一起生信啦啦啦生物信息编程科研信息学

seqkit的安装与使用

2018-10-22  本文已影响22人  苏牧传媒

安装:

conda install seqkit

ref:seqkit一个FASTA/Q序列处理神器 - 遗世独立的愚公 - 博客园

一、序列操作:

1.取反向序列

seqkit   seq  test.fa   -r  >  test_re.fa

2.取互补序列

seqkit   seq   test.fa  -p  >  test_com.fa

3.取反向互补序列

seqkit   seq   test.fa  -r  -p  > test_re_com.fa

4.DNA序列转换为RNA序列

seqkit   seq   test.fa  --nda2rna   >   test_rna.fa

5.RNA序列转换为DNA序列

seqkit   seq  test.fa   rna2dna     >    test_dna.fa

6.将序列以小写字母的形式输出

seqkit  seq  test.fa  -l  >  test_lower.fa

7.将序列以大写字母的形式输出

seqkit   seq   test.fa  -u >  test_upper.fa

8.指定每行序列的输出长度(为0的话,代表为一整行,默认的输出 长度是60个碱基)

seqkit  seq  test.fa  -w  10  >  test_10.fa  (指定序列的长度为10)

9.将多行序列转换为一行序列

seqkit   seq  test.fa   -w   0   >  test_w.fa

10.只输出序列

seqkit   seq  test.fa  -s  -w 0 > test_seq.fa

11.将只输出的序列的,指定每行输出的碱基数

seqkit   seq  test_seq.fa  -s  -w 40 > test_seq40.fa

###注意10,11的微妙之处

###11,12也可以一步完成:

seqkit  seq   test.fa   -s  -w  20  -o  test_20.fa

二、Fasta/q之间以及与tab格式互换

10.将fataq文件转化为fasta格式.

seqkit fq2fa   test.fq   -o   test.fa

11.将fasta格式转化为tab格式

seqkit  fx2tab  test.fa >  test_tab.fa (没有seq参数)

三、序列信息统计

1.序列碱基含量

seqkit  fx2tab  -l  -g  -n  -i  -H  test.fa

(这些参数组合起来比较好看)

2.序列长度的整体分布统计

seqkit  stat  test.fa

四、其他用法:功能还是挺多的:

上一篇下一篇

猜你喜欢

热点阅读