豆花转录组第一小分队生物信息学

生信星球转录组培训第一期Day5——卖萌哥

2019-06-10  本文已影响10人  卖萌哥

开始忙碌起来,作业可能没法扯那么多闲话了。

数据质控

昨天完成了数据格式的转换,接下来就可以对得到的fastq文件进行处理啦。
由于数据的问题,本应生成*_1.fastq.gz*_2.fastq.gz 两个文件的,结果生成了第三个文件

image.png
直接把这些删掉就好
ls *.gz | grep -v '_1' | grep -v '_2' | xargs rm

运行fastqc

ls *.gz | xargs -n 1 -I {} fastqc -t 32 {} -o ./

这种方法比较慢,是先做完一个再做下一个,还有比较简单粗暴的方法可以多个数据并行

fastqc -t 32 *.gz

查看结果

把结果拿下了看看,可以用filezilla,也可以

sz *.html *.zip

在弹出的框内选好位置即可。

用fastp处理数据

生成数据ID列表文件

ls *.gz | grep "_1" > 1.txt
ls *.gz | grep "_2" > 2.txt
paste 1.txt 2.txt > fastqID.txt

就可以得到

$ cat fastqID.txt
SRR1039509_1.fastq.gz   SRR1039509_2.fastq.gz
SRR1039512_1.fastq.gz   SRR1039512_2.fastq.gz
SRR1039513_1.fastq.gz   SRR1039513_2.fastq.gz
SRR1039516_1.fastq.gz   SRR1039516_2.fastq.gz
SRR1039517_1.fastq.gz   SRR1039517_2.fastq.gz
SRR1039520_1.fastq.gz   SRR1039520_2.fastq.gz
SRR1039521_1.fastq.gz   SRR1039521_2.fastq.gz

这样的结果。感谢豆豆的神仙操作!
为了方便后面文件的命名,用vim的替换功能把.fastq.gz给拿掉

%s/.fastq.gz//g

得到结果

SRR1039509_1    SRR1039509_2
SRR1039512_1    SRR1039512_2
SRR1039513_1    SRR1039513_2
SRR1039516_1    SRR1039516_2
SRR1039517_1    SRR1039517_2
SRR1039520_1    SRR1039520_2
SRR1039521_1    SRR1039521_2

写一个脚本来用fastp处理数据

#!/usr/bin/env bash

cat fastqID.txt | while read i
do
  fqs=($i)
  fq1=${fqs[0]}
  fq2=${fqs[1]}
  echo fastp -i ${fq1}.fastq.gz -o ../02clean/${fq1}.fastq.fp.gz -I ${fq2}.fastq.gz -O ../02clean/${fq2}.fastq.fp.gz
done

这玩意儿输出来是这样的


fastp.sh

然后挂nohup

nohup bash fastp.sh > fastp.log &

查看了nohup的--help才知道原来可以指定log的名字的,以后就不用每次去改nohup.out的文件名啦。

比对的内容留到后面做吧。晚安小熊猫。

卖萌哥
2019年6月10日

上一篇 下一篇

猜你喜欢

热点阅读