tophat2+cufflinks转录组测序实例(1)-数据准备
2018-11-08 本文已影响5人
邱俊辉
tophat2+cufflinks转录组测序实例将为你介绍转录组测序也就是最近热门的RNAseq整个流程,有兴趣的小伙伴可以一起讨论学习!
本次实验需要的软件有Aspera,SRA-toolki,tophat2,cufflinks,fastqc,Trimmomatic。下载和安装的教程这篇文章有https://www.jianshu.com/p/5750e8e6fd7e
人的基因组一共有两万多个基因,但这些基因并不是每时每刻都在表达,在不同时间不同组织中,基因的表达是不同的,而检测这些基因表达的有效方法就是RNAseq,它结合了下一代测序技术来对整个细胞的mRNA进行测序,从而确定每一个基因的表达量以及表达区段,主要用在分析不同条件下细胞内基因表达差异和分析基因表达的不同可变剪切上
RNAseq只要分为以下几个步骤首先要把测到的序列比对到基因组上,然后根据map到的区段对细胞构建转录本,然后比较几种细胞的转录本并且合并,最后衡量差异和可变剪切和其他的分析
在现实生活中,待比对的mRNA序列都是通过实验得到的,由于这只是一个例子,主要用于讲解RNAseq流程,所以我们先从NCBI上获取本次实例的原始数据以及参考基因组
从NCBI上下载数据可以用Aspera 使用教程可参考
这次我们实验的数据来源于这篇文献ttps://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE50177
image我们把下面四个数据下载下来其中两个作为对照组,两个为实验组
代码如下
mkdir -p RNA-seq/Sra
cd RNA-seq/Sra #将下载的数据保存在这个文件夹里面
~/.aspera/connect/bin/ascp -T -i /home/qiujunhui/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR957/SRR957677/SRR957677.sra ./
~/.aspera/connect/bin/ascp -T -i /home/qiujunhui/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR957/SRR957677/SRR957677.sra ./
~/.aspera/connect/bin/ascp -T -i /home/qiujunhui/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR957/SRR957677/SRR957677.sra ./
~/.aspera/connect/bin/ascp -T -i /home/qiujunhui/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR957/SRR957677/SRR957677.sra ./
然后又fastq-dump解压sra文件
fastq-dump *sra
然后用fastqc检查一下数据质量
cd RNA-seq
mkidr fastqc_out 创建一个存放fastqc质检结果的文件夹
fastqc -o ~/RNA-seq/fastqc_out --noextract ~/RNA-seq/Sra/*fastq
检查一下质检结果还不错