RNA-seq数据分析【一】:Data Check

2022-06-09  本文已影响0人  Bio_Infor

从本期开始,我将和 Qingdao University的pudding 一起分享RNA-seq从上游数据质控到下游差异分析等内容的全部流程,当然这仅仅是我们作为初学者的记录,欢迎大家批评指正!

背景介绍:测序物种是大鼠(Rat),在不同浓度(0mg,2mg,20mg)下染毒情况,每组有三个生物学重复,双端测序。

另外,pudding所搭建的分析环境是虚拟机+ubuntu+MobaXterm(传输linux与windows之间的文件,这个软件强推!!特别好用 )

本期关键词:Data Check

数据完整性检查

当我们从测序公司拿到原始测序数据之后(一般是fastq格式),由于完整的数据对于数据分析特别重要,另外原始测序数据一般数据量会很大,在传输的过程中可能会出现传输失败的情况,所以我们就十分需要在拿到数据链接并下载后检查数据的完整性。好在测序公司基本都会提供一个md5文件,这个文件能帮我们完成对数据完整性的检测。对于我们来说,我们对md5的理解可以停留在一个比较浅的层次:每个文件我们都可以生成一个md5码,如果两个文件完全一样,那它们的md5码应该是一样的。所以我们只要生成我们下载到的测序数据的md5码,并和公司的进行比较就知道了。


这是下载到的原始数据,可以看到确实有个以.md5结尾的文件,下面是我们生成md5码的过程:
for file in *.fq.gz
do
  md5sum $file
done

下面是公司给的md5文件:



我们生成的是:



可以看到是一样的,说明我们的数据下载是没有问题的,所有文件都是完整的。

数据质量检查

检查完数据下载成功后就是对数据质量进行检查,在这里我们使用的是fastqc工具:

for file in *.fq.gz
do
  fastqc $file
done

运行完后会发现生成了.html.zip后缀的文件。


其中,.html后缀文件导出到windows后可以进入网页,这个网页会出具报告告诉你测序质量如何,当然如果样本数据太多,不想每个网页都点开看的话,也可以用MultiQC把这些报告综合到一个网页里:

那么在这里我们简要介绍一下fastqc质检的结果:

好了,到现在为止我们已经完成了数据检查了(data check),后面pudding会接续给大家分享她是如何去做数据清理(data clean)的,期待第二期吧~

上一篇下一篇

猜你喜欢

热点阅读