豆花转录组第一小分队

生信星球转录组培训第一期Day4--郝志刚

2019-06-09  本文已影响18人  马连洼小法师

软件环境

实际操作

conda activate RNAseq
conda install fastqc multiqc trim-galore trimmomatic hisat2 bowtie2 subread salmon -y
下载结果
raw=~/RNAseq/raw
cat $raw/srr.ids | while read i ;do
#echo $i
time fastq-dump --gzip --split-3 -A $i $raw/${i}.sra -O $raw 1>sra2fq.log 2>&1;
done
rna=~/rnaseq
cd $rna/ref
# genome (从ensembl下载)
wget -c ftp://ftp.ensembl.org/pub/current_fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
# annotation (从ensembl下载)
wget -c ftp://ftp.ensembl.org/pub/current_gtf/homo_sapiens/Homo_sapiens.GRCh38.96.gtf.gz
# -c的含义是断点续传
下载
cd $rna/qc
fastqc $rna/raw/*.gz -o ./ -t 10
# -t指定线程数;-o输出路径

将质控文件结果html合而为一,可以在当前目录下

multiqc ./
质控结果
结果解读

解析结果

SRR1039508

以SRR1039508为例,整体Summary,绿色表示通过,黄色表示警告。

整个图又有三块背景:红色背景区域表示reads质量很差(Phred < 20),绿色背景表示质量不错(Phred > 28),由此可见,这个样本测序质量很不错。

per tile sequence quality

这个图经常会蹦出来FAIL 字眼吓唬我们。因为前10-12bp的碱基是RNA测序文库制备时使用的随机六聚体引物( 'random' hexamer priming)
随机引物是人工合成的随机序列六核苷酸混合物,这些引物可以随机地与 mRNA的任何部位互补,其优点是容易合成完整的cDNA

作者:刘小泽
链接:https://www.jianshu.com/p/efb1fd3fa390


那么根据A-T配对、G-C配对,就可以得到每个位置的A和T比例应该差不多,GC比例应该差不多。但由于六聚体引物的存在,而且它也并不是真正的"随机",还是存在一些碱基偏好性的,因此前10-12bp会有较大的波动
我们只要通过这个图,能看出没有特别大的碱基偏好性就好(也就是除了特殊的六聚体引物以外,A-T或C-G的比例差在1%以内就可以)

上一篇下一篇

猜你喜欢

热点阅读