生信星球转录组培训第一期Day4--郝志刚

2019-06-09 本文已影响18人马连洼小法师

软件环境

数据转换：将SRA转变为fq格式。用到软件fastq-dump,它属于sratools工具包中的一个。
数据质控：检测原始数据质量如何，有没有接头，低质量碱基，用到软件fastqc和multiqc。其中multiqc整合多个样本的fastqc结果于一个文件中。
数据过滤：去掉接头和低质量的碱基，软件时trim_galore和trimmomatic
比对：基于基因组比对（star、hisat2），基于转录组比对(bowtie、bwa)、不基于比对(salmon)。
定量：推荐使用featureCounts，它是subread软件下的一个小软件

实际操作

下载软件

conda activate RNAseq
conda install fastqc multiqc trim-galore trimmomatic hisat2 bowtie2 subread salmon -y

下载结果

数据转换：
目的：将sra转变为fq文件

raw=~/RNAseq/raw
cat $raw/srr.ids | while read i ;do
#echo $i
time fastq-dump --gzip --split-3 -A $i $raw/${i}.sra -O $raw 1>sra2fq.log 2>&1;
done

下载参考基因组及注释文件

rna=~/rnaseq
cd $rna/ref
# genome (从ensembl下载)
wget -c ftp://ftp.ensembl.org/pub/current_fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
# annotation (从ensembl下载)
wget -c ftp://ftp.ensembl.org/pub/current_gtf/homo_sapiens/Homo_sapiens.GRCh38.96.gtf.gz
# -c的含义是断点续传

下载

利用fastqc质控

cd $rna/qc
fastqc $rna/raw/*.gz -o ./ -t 10
# -t指定线程数；-o输出路径

将质控文件结果html合而为一，可以在当前目录下

multiqc ./

质控结果

结果解读

解析结果

SRR1039508

以SRR1039508为例，整体Summary，绿色表示通过，黄色表示警告。

第一个模块 Basic Statistics

基本信息

序列总数22935521，序列测序长度63，GC含量50
第二个模块

每个碱基质量

其中纵轴表示Phred碱基质量，横轴表示碱基在reads上的位置。比如：横坐标的1表示所有reads的第一个碱基的质量值分布，结果用一个箱线图表示。箱线图的红线表示中位数，其余的四条线为10、25、75、90四分位数。然后又看到有一条贯穿箱线图的蓝色线，它表示平均碱基质量值。

整个图又有三块背景：红色背景区域表示reads质量很差(Phred < 20)，绿色背景表示质量不错(Phred > 28)，由此可见，这个样本测序质量很不错。

3、 Per sequence quality scores

per tile sequence quality

4、碱基总体质量值分布 Per sequence quality scores

总体质量值分布

它的横轴是平均质量分数，纵轴是测序reads数。我们比较希望在低质量区域(也就是x轴前端)没有较大的峰(也就是没有太多的reads)，由图可知，测序质量非常好。
5、 read各个位置上碱基比例分布 Per base sequence content

碱基比例分布

这个图经常会蹦出来FAIL 字眼吓唬我们。因为前10-12bp的碱基是RNA测序文库制备时使用的随机六聚体引物( 'random' hexamer priming）
随机引物是人工合成的随机序列六核苷酸混合物，这些引物可以随机地与 mRNA的任何部位互补，其优点是容易合成完整的cDNA

作者：刘小泽
链接：https://www.jianshu.com/p/efb1fd3fa390

那么根据A-T配对、G-C配对，就可以得到每个位置的A和T比例应该差不多，GC比例应该差不多。但由于六聚体引物的存在，而且它也并不是真正的"随机"，还是存在一些碱基偏好性的，因此前10-12bp会有较大的波动
我们只要通过这个图，能看出没有特别大的碱基偏好性就好(也就是除了特殊的六聚体引物以外，A-T或C-G的比例差在1%以内就可以)

GC含量分布图 Per sequence GC content

GC含量

这个图表示了所有reads的GC分布，符合正态分布（也就是钟形曲线）
Per base N content

N含量
Sequence Length Distribution

image.png
Sequence Duplication Levels

image.png

这个图可以帮助判断文库的复杂程度，如果PCR扩增次数太多或者起始扩增底物太少，都会降低文库的复杂度。
过表达序列表 Overrepresented sequences

image.png
Adapter Content

image.png

生信星球转录组培训第一期Day4--郝志刚

软件环境

实际操作

解析结果

猜你喜欢

热点阅读