生信分析转录组数据分析RNA-seq

RNA-Seq(2):数据下载并质控

2022-01-23  本文已影响0人  Z_bioinfo

1.数据下载

下载流程之前写过,参考就可以。知道GSE号如何从GEO下载sra数据 - 简书 (jianshu.com)

下载之后批量改名字,这里用的是八个样本,处理组和用dex处理组,其它的没用到

cd ../scripts
cat > rename.sh
mv SRR1039508.sra 1_untreated.sra
mv SRR1039509.sra 1_Dex.sra
mv SRR1039512.sra 2_untreated.sra
mv  SRR1039513.sra 2_Dex.sra
mv SRR1039516.sra 3_untreated.sra
mv SRR1039517.sra 3_Dex.sra
mv SRR1039520.sra 4_untreated.sra
mv SRR1039521.sra 4_Dex.sra
sh ../scripts/rename.sh
image.png

2.将SRA格式转换为fastq格式

参考之前写的文章,按照那个脚本就可以。将sra文件转为fastq格式文件 - 简书 (jianshu.com)

3.原始文件质控

mkdir fastqc
fastqc --outdir fastqc  --threads 16 *.fastq.gz
cd fastqc
multiqc *zip#将质控结果整合

质控结果,结果还不错,其实下载的原数据就是文章已经处理过的,后面就没有再去接头二十直接比对到基因组上


image.png
image.png

%Dups——重复reads的比例
%GC——GC含量占总碱基的比例,比例越小越好
Length——测序长度
M Seqs——总测序量(单位:millions)


image.png
image.png
image.png
上一篇 下一篇

猜你喜欢

热点阅读