生物信息学习生物信息学转录组入门专题

转录组入门三(mac 版):了解fastqc测序数据

2017-10-18  本文已影响647人  Thinkando

作业要求

需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc软件测试测序文件的质量!
作业,理解测序reads,GC含量,质量值,接头,index,fastqc的全部报告,搜索中文教程,并发在论坛上面。
来源于生信技能树:http://www.biotrainee.com/forum.php?mod=viewthread&tid=1750#lastpost

实验步骤

1. 将 sra 数据转化成 fastq 格式

先建立一个SRR_fastqc.sh 文件,写入代码

#!/usr/bin/env bash
for i in {56..62}
do
fastq-dump --gzip --split-3 -O /Users/chengkai/Desktop/zhuanlu_files -A SRR35899${i}.sra
done

2. 在终端运行

# 这一步很慢,我跑了2小时,泡杯咖啡,欣赏一部电影吧
$ bash SRR_fastqc.sh 
image.png

3. fastqc 检测测序文件质量

创建一个文件夹

mkdir fastqc/

创建一个fastqc.sh脚本,写入如下代码

#!/usr/bin/env bash
fastqc -o ./fastqc/ -t 8 SRR3589956_1.fastq.gz SRR3589956_2.fastq.gz
fastqc -o ./fastqc/ -t 8 SRR3589957_1.fastq.gz SRR3589957_2.fastq.gz
fastqc -o ./fastqc/ -t 8 SRR3589958_1.fastq.gz SRR3589958_2.fastq.gz
fastqc -o ./fastqc/ -t 8 SRR3589959_1.fastq.gz SRR3589959_2.fastq.gz
fastqc -o ./fastqc/ -t 8 SRR3589960_1.fastq.gz SRR3589960_2.fastq.gz
fastqc -o ./fastqc/ -t 8 SRR3589961_1.fastq.gz SRR3589961_2.fastq.gz
fastqc -o ./fastqc/ -t 8 SRR3589962_1.fastq.gz SRR3589962_2.fastq.gz
bash fastqc.sh
image.png

4. 质量解读

html 格式用浏览器打开

基本信息

每个read各位置碱基的测序质量

image.png

偏离度

reads质量的分布

image.png

GC 含量统计

image.png

序列平均GC含量分布图

各位置N的reads比率

image.png

reads 长度分布

image.png

统计不同拷贝数的reads的频率

image.png
image.png

接头含量

image.png

重复短序列

参考文献

  1. http://fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ2irG2836uQYm2iZAyh1Zwf3_ (青山屋主)
  2. www.biotrainee.com/thread-2034-1-1.html (laofuzi)
  3. http://www.jianshu.com/p/14fd4de54402 (lxmic)
  4. https://zhuanlan.zhihu.com/p/20731723 (孟浩巍)
上一篇下一篇

猜你喜欢

热点阅读