转录组分析转录组测序学习生信

转录组分析入门 1 —— 背景知识

2020-03-03  本文已影响0人  chenxiaoxi
内容简介

1. 转录组测序要测什么?

👉mRNA:最常见的转录组测序,建库一般选200-300bp的片段,PE150或125测序

👉microRNA:将microRNA分离出来直接单独测序

👉IncRNA:长链非编码RNA,有正向、反向转录,要进行链特异性建库

关于链特异性建库:作用就是测序过程保留转录本的方向信息,让我们知道转录本是来自正义链还是反义链。方便后来区分不同的IncRNA类型以及它的定位,可以更准确获得基因结构和表达信息。】

2. mRNA的提取、纯化及质量检测?

👉提取:

👉纯化:

👉检测是否合格的指标:

3. 构建测序文库

👉分离RNA=》将RNA打断成小片段=》将小RNA片段反转录成DNA(DNA更稳定更容易扩增)=》加接头=》PCR扩增 =》质量检查QC

具体:总RNA样本检测合格后,对于真核生物,用带有Oligo(dT)的磁珠富集mRNA,对于原核生物,用试剂盒去除rRNA,向得到的mRNA中加入Fragmentation Buffer使其片断成为短片段,再以片断后的mRNA为模板,用六碱基随机引物合成cDNA第一链,并加入缓冲液、dNTPs、RNaseH和DNA Polymerase I合成cDNA第二链,经过QIAQuick PCR试剂盒纯化并加EB缓冲液洗脱。洗脱纯化后的双链cDNA再进行末端修复、加碱基A、加测序接头处理,然后经琼脂糖凝胶电泳回收目的大小片段并进行PCR扩增,从而完成整个文库制备工作。
注:
【RNA片段化目的:RNA长达几kb,测序仪器只能测200-300bp长度的短片断。
反转录目的:DNA更稳定更容易扩增。
接头作用:1⃣️ 使测序机器识别片段 2⃣️可同时测多个样品。
PCR扩增:只有加了接头的片段才能被扩增。】

4. 测序

目前二代测序主要采用Illumina平台

5. 分析流程

一般:质控-》比对(alignment or mapping)-》估算表达量(read counting)-》表达量比较(differential expression)。

1)质控(去除接头污染、低质量、N比例较高的reads,得到clean reads)

👉原始数据:Illumina测序仪下机的数据通常为Bcl格式,然后公司使用Bcl2Fastq软件,根据Index序列分割转换成每个样品的Fastq文件,用户拿到的就是fastq格式的原始数据。

👉质控:使用fastqc,查看碱基质量、接头情况、GC含量、序列长度、重复序列等

👉过滤:一般需要去掉低质量碱基或者未识别碱基(N)太多的reads;另外如果测序文库的插入片段太短,比如insert size=50,但采用PE 150测序,read1和read2就会测到接头,所谓的“测通“就是这意思,此时需要去掉接头序列。有时会出现两个接头连在一起的情况,也需要去掉。

2)比对

不同的比对流程👇

比对模式

上图来自文章A survey of best practices for RNA-seq data analysis, 2016, GB

看似简单的比对过程,就是帮150bp的reads找到家,其中可能还要让reads付出点“被分割”的代价。但是, 基因组有多大?人类的是3G,也就是30亿碱基,一个150bp对于整个基因组来说,简直不值一提,要从头一个一个比对吗?姑且这样可以,那么我们有多少reads?一般6G数据,150PE,会有20Mreads(=60亿/150/2),也就是2000万条reads。这该怎么办?怎样保证高效和低错误率?

👉HISAT2是TopHat2的升级版,该软件使用改进的BWT算法(Sirén et al. 2014)将参考基因组转换成index,实现了更快的速度和更少的资源占用。
【先将大的基因组序列打断成许多小片段,然后为了方便接下来寻找这些片段,需要对他们进行构建索引index(目的就是标注每个小片段的位置),再将测序的reads和基因组一样,也是打断成小片段,然后把它的小片段比对到基因组的小片段上,比对上的会给出位置信息。】
【注:index比对的方法也避免由于某个碱基不匹配导致整段reads比对不上的结果】

3)表达量估算

👉Counts:与转录本重叠的reads数。

👉RPKM/FPKM:Reads/Fragments per kilobase of transcript per millions of read mapped

【建库测序是一个随机抽样的过程,而这个抽取的样品实际上是以 Fragments 为单位,而不是 Reads。因此,使用FPKM更为合理。当 single-end 测序的时候,RPKM 与 FPKM 是等价的;当 pair-end 测序的时候(一个fragment对应两条reads),应该使用 FPKM。】

👉TPM: Transcripts per million reads
【当样本差异过大,要强调准确度或者定量目标基因的表达量的时候,TPM是最有效的。TMP先处理基因长度问题,再处理测序深度。】

FPKM vs. TPM(来自生信星球)
4)plot the data(PCA分析)

目的:1⃣️ 告诉我们是否能看到对照组与处理组直接的差异;2⃣️ 为下游的分析去掉其中不可靠的数据。

5)差异基因表达分析(通常edgeR或DESeq2)

~~未完待续~~

以上内容参考:
1. 简书 刘小泽:简单理解RNA-Seq
2. 简书 刘小泽:转录组谜团
3. 简书 刘小泽:转录组那些事儿 Part I
4. 简书 生信星球转录组培训第一期Day1--善良土豆
更多资料:
视频 StatQuest: A gentle introduction to RNA-seq
讲义 http://www.mi.fu-berlin.de/wiki/pub/ABI/GenomicsLecture12Materials/rnaseq1.pdf

上一篇 下一篇

猜你喜欢

热点阅读