序列拼接

组装细菌基因组

2019-12-09  本文已影响0人  粥粥zz

一、找到合适的基因序列

1.在Genome Announcements网站找一篇细菌基因组文章,并找到文章记载的SRA号;

image.png image.png image.png

二、下载sra序列

prefetch SRR9157804

三、Fastq-dump解压

1.新建一个文件夹存放该实验所有操作的结果

 mkdir ~/ncbi/public/sra/xijun
 mv  SRR9157804.sra  ~/ncbi/public/sra/xijun/
 cd  ~/ncbi/public/sra/xijun/

2.解压SRA文件为fastq格式

fastq-dump --gzip --split-files  SRR9157804.sra

三、Fastqc质控

fastqc SRR9157804_1.fastq.gz
fastqc SRR9157804_2.fastq.gz

四、数据过滤

 mkdir trim_out #用来存放过滤后的文件
 java -jar ~/Biosofts/Trimmomatic-0.38/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33 SRR9157804_1.fastq.gz  SRR9157804_2.fastq.gz ./trim_out/output_forward_paired.fq.gz ./trim_out/output_forward_unpaired.fq.gz ./trim_out/output_reverse_paired.fq.gz ./trim_out/output_reverse_unpaired.fq.gz ILLUMINACLIP:/home/zhouqi/Biosofts/Trimmomatic-0.38/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:20 TRAILING:20 MINLEN:60
fastqc output_forward_paired.fq.gz output_reverse_paired.fq.gz

五、组装基因组草图

只看正反配对上的,不考虑未配对上的
可以采用Spades和velvet组装,我这里使用后者

1.velveth利用数据构建一个hash表

velveth velvet_out 31 -shortPaired -fastq -separate output_forward_paired.fq.gz output_reverse_paired.fq.gz  

31代表kmer值

2.velvetg进行序列拼接

 velvetg velvet_out -exp_cov auto -cov_cutoff auto -very_clean yes

七、Quast评价组装的基因组效果

quast.py  contigs.fa  -o  ./quast_out

可以看出拼接后contigs数有146个,序列长度为4217673bp,N50为67893,GC含量为65.41%,这些数据和文章中有点差距,可能是文章所用的是spades组装的,它用的K值是自动选择的,我用的velvet,且K值设置为31


image.png
上一篇 下一篇

猜你喜欢

热点阅读