生物信息学与算法RNA-seq单细胞测序

标准化进行时

2018-10-20  本文已影响88人  刘小泽

刘小泽写于18.10.19-20 看一看转录组的定量相关术语
原版介绍视频请到公众号后台回复“fpkm”获得哦(无字幕版)

首先看概念

理解标准化

假如一开始得到的raw counts是这样的:一个样本3个重复,检测了4个基因

基因名 样本1.1 样本1.2 样本1.3
A(2kb) 10 12 30
B(4kb) 20 25 60
C(1kb) 5 8 15
D(10kb) 0 0 1

很明显,样本1.3中每个基因的值都明显高于1.1和1.2,另外B在所有样本中表达量都是A的2倍,当然,这些都是需要进行标准化的。看看标准化后是什么样子

  1. 利用RPKM
  1. RPKM vs FPKM

    只要知道:RPKM是单端数据使用,双端测序使用FPKM更合适

  2. TPM

    先对每个基因的reads数用基因长度校正,然后用校正后的reads数除以所有reads总和,因此每个样本中的TPM的总和都是一样的,而FPKM则不相等 RPKM vs TPM

结论

RPKM及TPM的都考虑了基因长度,但基因长度对RNA-Seq差异比较结果并无极大影响。单一样本中TPM与RPKM的结果基本上是一致的,同一物种不同的样本FPKM标准化会相对弱一些(也就是相对粗放一些),不同物种的就不能比较啦。
更推荐使用TPM进行标准化,但现实情况是:FPKM使用仍然比较广泛


刘小泽写于18.10.20

昨天写了关于基因表达量的一些术语,那么你是否会好奇,这些定量的值是怎么来的呢?我们又如何将原始的统计值raw counts转为标准化的FPKM或者TPM呢

表达量的意义

基因表达量事关重大,不同的表达量会产生不同的基因产物,也就是蛋白质啦。蛋白质又会决定细胞以及个体的形态与生物功能。因此转录组才会这么火热,因为我们都想探究某一种表型的内在原因,看看是哪些基因起主导作用,是促进还是抑制

来自哪里—检测表达量

我们对表达量最直观的就是检测,有的使用实验方法+图像,有的是用数据展示,有的方法适用于少部分基因检测(一般就是实验方法),有的用的大样本多基因检测

检测方法 原理 实际应用
qPCR(实时荧光定量) PCR扩增过程中增加荧光信号的实时监测,看看每个循环产物数量的变化 常规基因表达验证(低通量)
Northern blotting 放射性标记探针杂交 半定量分析(用于少量基因的定性)(低通量)
FISH(荧光原位杂交) 在组织水平上利用目的蛋白的抗体检测表达 某个基因在特定组织中表达(低通量)
SAGE(基因表达系列分析) 分析大量的EST(表达序列标签)寻找不同丰度的标签序列 分析样本量较多(中通量)
Microarray(表达芯片或者微阵列) 将寡核苷酸探针固定在芯片上,然后将待测样本mRNA加上荧光标记与芯片杂交,然后通过分析荧光信号来监测表达量 高通量范围
RNA-seq 直接就是高通量测序,将个体的RNA序列测出然后用比对的方法鉴定表达量 高通量范围

高通量的表达量来源之一:芯片

原来的芯片技术可谓是“一枝独秀”,一张芯片可能包含数十、数百甚至数十万的探针,利用芯片数据可以帮助发现有关键生物功能的基因,并对基因给出注释。并且对计算机要求不高,普通电脑(8G+内存)利用R的bioconductor就可以分析,因此在RNA-seq如此流行的今天,仍然有大量的芯片数据存放在NCBI的GEO数据库和EBI的ArrayExpress数据库等待解读,这些数据主要来自Affymetrix、Agilent、Illumina公司

芯片表达量的来源大体是这样的:
1.样本提取mRNA=》2.反转录成cDNA=〉3.荧光或同位素标记=》
4.液相环境中与芯片探针杂交=〉洗膜=》
5.扫描仪扫描荧光或同位素信号=〉原始数据获得=》
6.预处理(过滤背景噪音、数据筛选)=〉基因表达数据(每行是一个基因表达量,每列是样本所有基因)

然后再介绍下其中的关键几点

高通量的表达量来源之二:转录组

RNA-seq表达量来源 大体是这样的:
1.提取mRNA=》2. 建库测序=〉
3.拿到一定的原始数据量raw data【双端x测序深度x建库大小,比如测序深度20X,双端150bpillumina测序=》得到的数据就是2x150bpx20M=6G的数据量,但这个6G是碱基量,和硬盘占用空间的gigabytes(g)不一样哦】=》
4.质控过滤(具体参数设置可以参考一些发表的好文章他们的设置方式)=〉
5.clean data=》接下来兵分两路

去向何方

表达量数据得到了,下面就要对感兴趣的表达差异进行探索,这里面的思路就是:我们利用一种试剂、毒素、药物处理后发现,处理后的和未处理的在某些表型出现了变化,而这种变化可能正是我们感兴趣的【比如就有这么“有(wu)趣(liao)”的导师扔给你两只老鼠🐭:“去,把其中一只给我处理了,做出个高分文章来”——听花花讲的】。

我们可能开始并不知道差异背后的机制是什么,但是可以通过探索一些有变化的基因来分析:参与何种生物途径的基因发生了变化,进而结合分类数据库GO、代谢通路数据库KEGG做一个推测,为下一步研究打个基础(这也是如今转录组只适合打辅助的原因,因为它只能给你推测)

差异分析三R包法宝:Limma、DESeq2、edgeR【特殊情况:无重复用GFOLD(命令行)】


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!
上一篇下一篇

猜你喜欢

热点阅读