单菌分析

2019-12-02  本文已影响0人  Thinkando

一个细菌基因组完整分析脚本
https://mp.weixin.qq.com/s/J4j_-XnEDu0S7k5VdeWH6w

conda create -n danjun python=2.7
conda activate danjun
conda install -c bioconda/label/cf201901 sratools
conda install -c bioconda/label/cf201901 fastp
conda install -c bioconda/label/cf201901 prodigal
conda install -c bioconda/label/cf201901 fastqc
conda install -c bioconda/label/cf201901 soapdenovo2
conda install -c bioconda/label/cf201901 spades
conda install -c bioconda/label/cf201901 soapdenovo2-gapcloser
conda install -c bioconda/label/cf201901 quast

fasterq-dump --split-3 SRR7969781 -e 20
#一、数据质控
mkdir result  
fastqc -f fastq -o result SRR7969781_1.fastq SRR7969781_2.fastq
#二、数据过滤
#利用fastp进行数据过滤  -q 质量 -u 指定最多可以有多少百分比的质量不合格碱基 -n 可以限定一条 read 中最多能有多少个 N -z 压缩
fastp -i SRR7969781_1.fastq -I SRR7969781_2.fastq \
-o clean.1.fq.gz  -O clean.2.fq.gz  -z 4 -q 20 -u 30 -n 10 -h clean.html


#三、序列拼接
#SOAPdenovo  
mkdir kmer35  
# -K 输入kmer大小 -D 去除频数不大于该值的由k-mer连接的边 -d 去除频数不大于该值的k-mer,默认值为0 
# -u 构建scaffold前不屏蔽高覆盖度的contig,这里高频率覆盖度指平均contig覆盖深度的2倍。默认屏蔽
# -p 线程 -s 配置文件
SOAPdenovo-63mer all -s lib.list -K 35 -o kmer35/kmer35 -D 1 -d 1 -u 2 -p 16>kmer35.log  
#SPAdes  # 不能出现中文目录
spades.py -o illumina_result -1 ./clean.1.fq.gz  -2 ./clean.2.fq.gz -t 16 


#四、序列补洞

#补洞 -l maximum read length -p overlap param
GapCloser -a kmer35/kmer35.scafSeq -b lib.list -o kmer35.fill.fa -l 100 -p 25 -t 16  

#五、拼接结果统计 
# 不能有中文路径
#quast.py kmer35.fill.fa -o quast/ -t 16
#quast.py contigs.fasta -o spades/ -t 16
# vulgatus.fa 参考序列
quast.py -r vulgatus.fa -o quast1 kmer35.fill.fa contigs.fasta

#六、基因预测
#原核生物基因预测
# -a 翻译成蛋白质 -d 核酸 -f 选择输出格式 -g Specify a translation table to use 
prodigal -a sample1.pep -d sample1.cds -f gff -g 11  -o sample1.gff -p single -s sample1.stat -i contigs.fasta >prodigal.log

#七、基因功能注释
mapper.py -i contigs.fasta --output contigs_bact -d bact --data_dir /ifs1/Software/biosoft/eggnog-mapper-1.0.3/data/
上一篇下一篇

猜你喜欢

热点阅读