readseq处理序列文件

2018-01-25 本文已影响0人热爱大自然的小和尚

Genbank文件包含一条序列数据的多方面信息，但却不是分析时可以直接利用的有效格式，因此，多数时候，我们需要在分析之前对Genbank格式进行转换。于是，就有了readseq（我开个玩笑）

我打算慢慢写这个工具的使用笔记，用一点，写一点
当然，大家可以直接上readseq的官网看使用说明

安装

brew install readseq简单粗暴

使用

引用自biostar handbook
在Unix类型系统下，我们可以使用管道pipe直接接收来自cat等的数据，加上-p参数即可
默认传入的序列格式为.gb

让我们先下载一段序列：efetch -format=gb -db=nuccore -id=AF086833 > AF086833.gb

将数据格式转换为fasta：cat AF086833.gb | readseq -p -format=FASTA
转换格式的同时提取CDS区：cat AF086833.gb | readseq -p -format=FASTA -feat=CDS
转换为GFF格式：cat AF086833.gb | readseq -p -format=GFF
转换为GFF的同时提取CDS区：cat AF086833.gb | readseq -p -format=GFF -feat=CDS

提示：readseq在提取数据时，如果gb文件包含蛋白质序列，那么在annotation部分，你还可以直接得到蛋白质序列，很棒啊！

上一篇下一篇

猜你喜欢

热点阅读