RNA-Seq(2):数据下载并质控
2022-01-23 本文已影响0人
Z_bioinfo
1.数据下载
下载流程之前写过,参考就可以。知道GSE号如何从GEO下载sra数据 - 简书 (jianshu.com)
下载之后批量改名字,这里用的是八个样本,处理组和用dex处理组,其它的没用到
cd ../scripts
cat > rename.sh
mv SRR1039508.sra 1_untreated.sra
mv SRR1039509.sra 1_Dex.sra
mv SRR1039512.sra 2_untreated.sra
mv SRR1039513.sra 2_Dex.sra
mv SRR1039516.sra 3_untreated.sra
mv SRR1039517.sra 3_Dex.sra
mv SRR1039520.sra 4_untreated.sra
mv SRR1039521.sra 4_Dex.sra
sh ../scripts/rename.sh
![](https://img.haomeiwen.com/i27423876/625845a2740eb7c2.png)
2.将SRA格式转换为fastq格式
参考之前写的文章,按照那个脚本就可以。将sra文件转为fastq格式文件 - 简书 (jianshu.com)
3.原始文件质控
mkdir fastqc
fastqc --outdir fastqc --threads 16 *.fastq.gz
cd fastqc
multiqc *zip#将质控结果整合
质控结果,结果还不错,其实下载的原数据就是文章已经处理过的,后面就没有再去接头二十直接比对到基因组上
![](https://img.haomeiwen.com/i27423876/d8b9d30623817306.png)
![](https://img.haomeiwen.com/i27423876/06a07217ee7a32c7.png)
%Dups——重复reads的比例
%GC——GC含量占总碱基的比例,比例越小越好
Length——测序长度
M Seqs——总测序量(单位:millions)
![](https://img.haomeiwen.com/i27423876/121113e86028a9cb.png)
![](https://img.haomeiwen.com/i27423876/73184a5069c947a5.png)
![](https://img.haomeiwen.com/i27423876/dd43cbce53aa3c5f.png)