readseq处理序列文件

2018-01-25  本文已影响0人  热爱大自然的小和尚

Genbank文件包含一条序列数据的多方面信息,但却不是分析时可以直接利用的有效格式,因此,多数时候,我们需要在分析之前对Genbank格式进行转换。于是,就有了readseq(我开个玩笑)

我打算慢慢写这个工具的使用笔记,用一点,写一点
当然,大家可以直接上readseq的官网看使用说明

安装

brew install readseq简单粗暴

使用

让我们先下载一段序列:efetch -format=gb -db=nuccore -id=AF086833 > AF086833.gb

  1. 将数据格式转换为fasta:cat AF086833.gb | readseq -p -format=FASTA
  2. 转换格式的同时提取CDS区:cat AF086833.gb | readseq -p -format=FASTA -feat=CDS
  3. 转换为GFF格式:cat AF086833.gb | readseq -p -format=GFF
  4. 转换为GFF的同时提取CDS区:cat AF086833.gb | readseq -p -format=GFF -feat=CDS

提示:readseq在提取数据时,如果gb文件包含蛋白质序列,那么在annotation部分,你还可以直接得到蛋白质序列,很棒啊!

上一篇 下一篇

猜你喜欢

热点阅读