生物信息学

开始学着写shell脚本——1

2020-05-02  本文已影响0人  小明的数据分析笔记本
这个脚本完全参考了文章

https://www.jianshu.com/p/0b0c4ab4c38a (GATK4全基因组数据分析最佳实践,我以这篇文章为标志,终结当前WGS系列数据分析的流程主体问题 | 完全代码)

获取文件名的前缀
https://blog.csdn.net/Rong_Toa/article/details/104252766

脚本

用途:输入全基因组重测序的fastq文件和使用bowtie2构建的叶绿体参考基因组索引,提取全基因组重测序数据中的叶绿体基因组的数据

fq1=$1
fq2=$2
reference=$3


fq_file_name_1="${fq1%%.*}"
fq_file_name_2="${fq2%%.*}"
output_prefix="${fq1%%_*}"

bowtie2 -q -x ${reference} -1 ${fq_file_name_1}.fastq -2 ${fq_file_name_2}.fastq -p 8 -S ${output_prefix}.sam

echo '1 alignment done'

samtools view -S -b -o ${output_prefix}.bam ${output_prefix}.sam

echo '2 sam convert to bam done'

samtools sort -n -O bam -o ${output_prefix}.sorted.bam ${output_prefix}.bam

echo '3 sort by read name done'

samtools view -u -f 1 -F 12 ${output_prefix}.sorted.bam > ${output_prefix}.sorted.aligned.bam

echo '4 extract aligned reads done'

bamToFastq -i ${output_prefix}.sorted.aligned.bam -fq mapped_R1.fastq -fq2 mapped_R2.fastq

echo '5 The result files are mapped_R1.fastq and mapped_R2.fastq'

使用方法是

bash practice.sh input_1.fastq input_2.fastq reference/cp_index

使用前提是samtools、bowtie2、和bamToFastq已经安装并且添加到了环境变量

欢迎大家关注我的公众号
小明的数据分析笔记本

公众号二维码.jpg
上一篇 下一篇

猜你喜欢

热点阅读