day19ChIP-seq 数据清洗

2022-06-02  本文已影响0人  meraner

一、trim_galore

用来对fastq的raw数据进行清洗过滤,即过滤掉低质量数据,留下的就是clean数据啦。
cutadapt 软件可以对NGS数据进行质量过滤
FastQC 软件可以查看NGS数据的质量分布
trim_galore将这两个软件封装到一起,使用起来更加方便。

1.下载安装

先确定一下这两个的版本

zds209 14:22:34 ~$cutadapt --version
1.18
zds209 14:27:18 ~$fastqc -v
FastQC v0.11.3
wget -c https://github.com/FelixKrueger/TrimGalore/archive/0.6.0.tar.gz

tar -vxzf TrimGalore-0.6.0.tar.gz 

添加到环境变量就行啦。注意:用wincsp软件,在window环境下进行.bashrc的操作,添加变量最方便稳妥。

2. 单端测序数据

trim_galore --quality 20 -a AGATCGGAAGAGC --length 20 -o out_dir input.fq
--quality 20 相当于常用的Q20过滤(详见day18)切除质量得分低于设定值的序列
-a输入adapter序列。也可以不输入
-o/--output_dir:输入目录 [需要提前建立目录,否则运行会报错]。
--length 20 小于20bp的被去除。注意,在pe150下,可以50或36(默认20)。
--fastqc #当分析结束后,使用默认选项对结果文件进行fastqc分析
--gzip和--dont_gzip:清洗后的数据zip打包或者不打包。

批量处理单端数据

project=/data/zds209/ChIP-seqtest
ls project/rawdata | grep "fastq.gz" > config_file cat config_file | while read id do output_dir="project/clean"
trim_galore -q 25 --phred33 --length 36 -e 0.1 --stringency 3 -o output_dirproject/rawdata/$id
done

处理双端数据

project=~/ssresult
trim_galore -q 25 --phred33 --stringency 3 --length 36  --paired $project/rawdata/B8D_L3_1005230.R1.fq.gz  $project/rawdata/B8D_L3_1005230.R2.fq.gz --gzip -o $project
```

#批量处理双端数据

project is the dir on the home with rawdata

project=/data/zds209/ssresult
ls project/rawdata | grep "R1" > gz1 lsproject/rawdata | grep "R2" > gz2
paste gz1 gz2>config_file
cat config_file | while read id
do
sample_dir="project/rawdata" output_dir="project/clean"
arr=(id) fq1={arr[0]}
fq2={arr[1]} sample_dir1="sample_dir/fq1" sample_dir2="sample_dir/fq2" trim_galore -q 25 --phred33 --length 36 -e 0.1 --stringency 3 --paired -ooutput_dir sample_dir1sample_dir2
done

#二、conda 安装multiqc没成功
通过环境配置,把网管的anaconda配置到自己的环境中了。conda list成功了。
##1. 问题:开始`conda install multiqc`不成功。
可能是没配置镜像,但是配置过程中一直跳出来y/n这样奇怪的选项,而且conda info没有显示。
解决办法:
把home目录下.condarc删除,再输入

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --set show_channel_urls yes

就成功了。conda info也有显示具体信息了。conda list也显示了很多已经有的包。但是没有multiqc。
##2. 安装multiqc
输入 conda install multiqc,下载了一些文件,随后说没有安装权限。应该是conda目录是在data/software下,我是非root账户,没有权限啊。

#三、pip安装multiqc
`pip install multiqc` 安装成功了。到底pip和conda啥关系,为何会有不同呢?有待日后想明白。反正现在看是能用了。multiqc -help成功。注:现在已经通过pip安装了cutadapt和multiqc两个软件了。

![image.png](https://img.haomeiwen.com/i27995477/82236cec9b910125.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

#四、multiqc怎么用
到fastqc的输出文件夹下,直接输入:`multiqc  ./`运行的很快。分分钟就有结果了。估计就是调用fastqc的现有数据,组一下结构。
这个命令应该也可以整合到fastqc的脚本中去。

![image.png](https://img.haomeiwen.com/i27995477/2fe39c0702d70e2e.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
画面挺精美的啊。
![image.png](https://img.haomeiwen.com/i27995477/5b2a69d6fa1774a1.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
上一篇下一篇

猜你喜欢

热点阅读