生信星球转录组培训第一期Day4--郝志刚
软件环境
- 数据转换: 将SRA转变为fq格式。用到软件
fastq-dump
,它属于sratools工具包中的一个。 - 数据质控:检测原始数据质量如何,有没有接头,低质量碱基,用到软件
fastqc
和multiqc
。其中multiqc
整合多个样本的fastqc结果于一个文件中。 - 数据过滤:去掉接头和低质量的碱基,软件时
trim_galore
和trimmomatic
- 比对:基于基因组比对(
star
、hisat2
),基于转录组比对(bowtie
、bwa
)、不基于比对(salmon
)。 - 定量:推荐使用
featureCounts
,它是subread
软件下的一个小软件
实际操作
- 下载软件
conda activate RNAseq
conda install fastqc multiqc trim-galore trimmomatic hisat2 bowtie2 subread salmon -y
下载结果
- 数据转换:
目的:将sra转变为fq文件
raw=~/RNAseq/raw
cat $raw/srr.ids | while read i ;do
#echo $i
time fastq-dump --gzip --split-3 -A $i $raw/${i}.sra -O $raw 1>sra2fq.log 2>&1;
done
- 下载参考基因组及注释文件
rna=~/rnaseq
cd $rna/ref
# genome (从ensembl下载)
wget -c ftp://ftp.ensembl.org/pub/current_fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
# annotation (从ensembl下载)
wget -c ftp://ftp.ensembl.org/pub/current_gtf/homo_sapiens/Homo_sapiens.GRCh38.96.gtf.gz
# -c的含义是断点续传
下载
- 利用fastqc质控
cd $rna/qc
fastqc $rna/raw/*.gz -o ./ -t 10
# -t指定线程数;-o输出路径
将质控文件结果html合而为一,可以在当前目录下
multiqc ./
质控结果
结果解读
解析结果
SRR1039508以SRR1039508为例,整体Summary,绿色表示通过,黄色表示警告。
-
第一个模块 Basic Statistics
基本信息
序列总数22935521,序列测序长度63,GC含量50
-
第二个模块
每个碱基质量
其中纵轴表示Phred碱基质量,横轴表示碱基在reads上的位置。比如:横坐标的1表示所有reads的第一个碱基的质量值分布,结果用一个箱线图表示。箱线图的红线表示中位数,其余的四条线为10、25、75、90四分位数。然后又看到有一条贯穿箱线图的蓝色线,它表示平均碱基质量值。
整个图又有三块背景:红色背景区域表示reads质量很差(Phred < 20),绿色背景表示质量不错(Phred > 28),由此可见,这个样本测序质量很不错。
- 3、 Per sequence quality scores
-
4、 碱基总体质量值分布 Per sequence quality scores
总体质量值分布
它的横轴是平均质量分数,纵轴是测序reads数。我们比较希望在低质量区域(也就是x轴前端)没有较大的峰(也就是没有太多的reads),由图可知,测序质量非常好。
-
5、 read各个位置上碱基比例分布 Per base sequence content
碱基比例分布
这个图经常会蹦出来FAIL 字眼吓唬我们。因为前10-12bp的碱基是RNA测序文库制备时使用的随机六聚体引物( 'random' hexamer priming)
随机引物是人工合成的随机序列六核苷酸混合物,这些引物可以随机地与 mRNA的任何部位互补,其优点是容易合成完整的cDNA
作者:刘小泽
链接:https://www.jianshu.com/p/efb1fd3fa390
那么根据A-T配对、G-C配对,就可以得到每个位置的A和T比例应该差不多,GC比例应该差不多。但由于六聚体引物的存在,而且它也并不是真正的"随机",还是存在一些碱基偏好性的,因此前10-12bp会有较大的波动
我们只要通过这个图,能看出没有特别大的碱基偏好性就好(也就是除了特殊的六聚体引物以外,A-T或C-G的比例差在1%以内就可以)
-
GC含量分布图 Per sequence GC content
GC含量
这个图表示了所有reads的GC分布,符合正态分布(也就是钟形曲线)
-
Per base N content
N含量 -
Sequence Length Distribution
image.png -
Sequence Duplication Levels
image.png
这个图可以帮助判断文库的复杂程度,如果PCR扩增次数太多或者起始扩增底物太少,都会降低文库的复杂度。
-
过表达序列表 Overrepresented sequences
image.png -
Adapter Content
image.png