《生物软件及应用》课程笔记

MultiQC使用

2019-11-12  本文已影响0人  粥粥zz

一、MultiQC的安装

1.先安装conda

我们先前安装过,但是发现不能用了,在网上查询后,发现问题,下面是解决方法
<参考https://www.jianshu.com/p/edaa744ea47d>

cd anaconda3/bin
chmod 777 activate #给activate添加一下权限才能使用conda
source ./activate #启动conda

2.安装MultiQC

conda install -c bioconda multiqc

-c这个参数很重要,通过它来指定软件下载的镜像位置

multiqc --version
或者
multiqc -h
发现安装成功 image.png image.png

二、下载sra序列

1、下载数据

prefetch SRR8073294
prefetch SRR8073207
image.png

显示成功下载,下载后的内容放在~/ncbi/public/sra路径下

2、解压SRA文件为fastq格式

有两种方法解压

fastq-dump --gzip --split-files  SRR8073294.sra
fastq-dump --gzip --split-files  SRR8073207.sra

(1).新建脚本文件

vi fqdump.sh

(2).输入以下脚本

#!/bin/sh
for i in *sra
do
echo $i
fastq-dump --gzip --split-files $i
done

保存退出
这里--gzip参数是为了生成压缩的gz格式fastq文件,以节省磁盘空间
(3)运行脚本

sh fqdump.sh

三、用fastqc进行数据质量评价

fastqc SRR8073207_1.fastq.gz
fastqc SRR8073207_2.fastq.gz
fastqc SRR8073294_1.fastq.gz
fastqc SRR8073294_2.fastq.gz
得到以下结果 image.png

四、使用multiqc整合

<以下有些内容有所参考https://www.jianshu.com/p/85da4dcc6020里的内容>

multiqc .

五、结果分析

1. General Statistics:所有样本数据基本情况统计

image.png

这里可以看到重复reads的比例、GC含量占总碱基的比例、测序长度、总测序量

2.Sequence Counts:序列计数

image.png

这里可以看到重复reads,我找的这四个序列重复reads比例都偏高,尤其是SRR8073207达到了90%以上,说明这两个样本的序列中有用的reads数目较少

3.Sequence Quality Histograms :每个read各位置碱基的平均测序质量

image.png

绿色区间——质量很好,橙色区间——质量合理,红色区间——质量不好
可以看出SRR8073207测序质量比SRR8073294的好,SRR8073294_2这个有点问题

4.Per Sequence Quality Scores 具有平均质量分数的reads的数量

image.png

绿色区间——质量很好、橙色区间——质量合理、红色区间——质量不好
可以看出这四个序列的整体测序质量还是很不错,所有的都在绿色区域

5.Per Base Sequence Content :每个read各位置碱基ATCG的比列

image.png

结果显示四个序列都报错,说明每个位置每种碱基出现的概率差别很大,可能有过表达序列的污染

6.Per Sequence GC Content :reads的平均GC含量

image.png

这里结果显示四条序列都被报错,从形状上来看曲线和正态曲线相差甚远,可能是由于文库的污染或是部分reads构成的子集有偏差造成的

7.Per Base N Content :每条reads各位置N碱基含量比例

image.png

说明测序仪器能辨别这四个序列中每条reads的每个位置的碱基

8.Sequence Length Distribution 序列长度分布

image.png

对于这四个序列,每次测序仪测出来的长度主要都在251bp

9.Sequence Duplication Levels:每个序列的相对重复水平

image.png

四个序列中的重复的reads的程度都超过了范围,unique reads比例太少

10.Overrepresented sequences:文库中过表达序列的比例

image.png

这四个序列中过表达的序列的比例都远远超过1%,SRR8073294的两个序列中过表达的序列都超过50%,如果出现这种情况,不是这种转录本巨量表达,就是样品被污染

11.Adapter Content 接头含量

image.png

SRR8073294的两个序列接头含量比SRR8073207多,但两者接头含量都超过了5%,而且SRR8073294_1的接头含量接近10%

上一篇 下一篇

猜你喜欢

热点阅读