ATAC-seq(2) -- 数据下载及质控
2022-07-16 本文已影响0人
Z_bioinfo
处理流程

分析ATAC-Seq从本质上来看和分析ChIP-Seq没啥区别,都是peak-calling,也就是从比对得到BAM文件中找出reads覆盖区,也就是那个峰。那么问题集中在如何找到peak。
假设目前已经找到了peak,这是不是意味着我们找到转录因子了?不好意思,这不存在的,因为ATAC-Seq只是找到了全基因组范围的开放区域,而这些开放区域的产生未必是转录因子引起,所以需要一些预测性工作。
数据来源

数据的GEO号:GSE66581
由于原文数据太多,这里选取了四组数据来进行练习
2-cell-1 SRR2927015
2-cell-2 SRR2927016
2-cell-5 SRR3545580
2-cell-4 SRR2927018
1.从SRA下载数据并进行数据解压
nohup prefetch SRR2927015 &
nohup prefetch SRR2927016 &
nohup prefetch SRR3545580 &
nohup prefetch SRR2927018 &
#重命名
mv SRR2927015.sra 2-cell-1.sra
mv SRR2927016.sra 2-cell-2.sra
mv SRR3545580.sra 2-cell-5.sra
mv SRR2927018.sra 2-cell-4.sra
#将sra文件转换成fastq文件
for i in *sra
do
echo $i
fastq-dump --split-3 --gzip $i
done
#得到的原始fq数据如下:
-rw-rw-r-- 1 jmzeng jmzeng 2.6G Aug 24 23:10 2-cell-1_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 2.6G Aug 24 23:10 2-cell-1_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 3.4G Aug 24 23:31 2-cell-2_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 3.7G Aug 24 23:31 2-cell-2_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.2G Aug 24 22:46 2-cell-4_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.2G Aug 24 22:46 2-cell-4_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 4.4G Aug 24 23:52 2-cell-5_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 4.9G Aug 24 23:52 2-cell-5_2.fastq.gz
2.原始文件质控
质量控制前后都需要可视化,肯定是fastqc+multiqc
缠绕核小体 DNA 约 147bp 与相邻核小体连接的 DNA 约 20-90bp. 加上测序接头等约 135bp 长度会达到 200bp 左右,因此最后文库片段长度可能是 200-1000bp 左右,并且主要的部分在 600bp 一下,但 ATACseq 建库片段分布可能因为样本类型、细胞数量、处理过程等有关,也许文库片段分布有所差异。

原始 fastq 用 fastqc 生成质控报告
mkdir fastqc#创造一个文件夹存放质控结果
fastqc --outdir fastqc --threads 16 *.fastq.gz
cd fastqc
multiqc *zip#将质控结果整合

然后用 trim_galore 进行过滤
mkdir ../trim_galore
ls *.fastq.gz | while read id;
do
sample=${id%_*}
trim_galore -q 25 --phred33 --length 35 -e 0.1 --stringency 4 --paired -o ../trim_galore $sample_1.fastq.gz $sample_2.fastq.gz
done
#得到过滤后的fq文件如下:
-rw-rw-r-- 1 jmzeng jmzeng 2.4G Aug 25 09:35 2-cell-1_1_val_1.fq.gz
-rw-rw-r-- 1 jmzeng jmzeng 2.3G Aug 25 09:35 2-cell-1_2_val_2.fq.gz
-rw-rw-r-- 1 jmzeng jmzeng 3.1G Aug 25 10:10 2-cell-2_1_val_1.fq.gz
-rw-rw-r-- 1 jmzeng jmzeng 3.3G Aug 25 10:10 2-cell-2_2_val_2.fq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.1G Aug 25 08:52 2-cell-4_1_val_1.fq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.1G Aug 25 08:52 2-cell-4_2_val_2.fq.gz
-rw-rw-r-- 1 jmzeng jmzeng 3.7G Aug 25 10:27 2-cell-5_1_val_1.fq.gz
-rw-rw-r-- 1 jmzeng jmzeng 3.9G Aug 25 10:27 2-cell-5_2_val_2.fq.gz
过滤后再质控
mkdir fastqc#创造一个文件夹存放质控结果
fastqc --outdir fastqc --threads 16 *.fq.gz
cd fastqc
multiqc *zip#将质控结果整合
