R plus 生物~Bioconductor
刘小泽写于18.9.7
各行各业数据呈爆炸式增长,大量的数据等待被处理,R语言就是一个利器,可以说是做数据分析必备的编程语言。当强大的R与包罗万象的生物结合,再一次刺激了R的迅猛发展。随着NGS测序的普及,R语言的生信专业社区Bioconductor诞生,开启了生物信息的R语言时代。
好工具,用起来,首先要了解生物数据与R之间的关联
生物知识回顾
- 基因有三类:第一类编码序列,编码蛋白【转录+翻译功能】;第二类只有转录没有翻译功能【tRNA+rRNA】;第三类不转录基因,调控基因表达【启动子、操纵子】
- 基因组:单倍体细胞中包含编码序列和非编码序列的全部DNA【核基因组+线粒体基因组+叶绿体基因组】
- 狭义转录组:mRNA,代表样本整体基因表达水平,一般称为“表达谱”【真正的表达谱是蛋白质组信息,研究手段是质谱】。通常用基因芯片、RNA-seq
- 广义转录组:
- 非编码ncRNA:有三类【按长度划分】
- 小于50nt的small RNA【长度单位:单链叫nt,双链叫bp】:miRNA、siRNA、piRNA【small RNA序列短,同源性高,一般采用二代测序检测】
- 50-500nt:rRNA、tRNA、snRNA、snoRNA
- 大于500nt:mRNA-like ncRNA、不带polyA尾的ncRNA
- microRNA:也叫miRNAs,20-25nt,初级转录物-》核酸酶剪切加工-〉组装进RNA诱导的沉默复合体-》互补配对识别靶mRNA-〉根据互补程度不同指导沉默复合体降解靶mRNA或者阻遏mRNA翻译
- 非编码ncRNA:有三类【按长度划分】
- DNA、蛋白互作:Chromatin immuopre-cipitation, ChIP,主要应用于:DNA序列转录因子结合位点(Binding sites)识别 ,如启动子、增强子等顺式作用文件(Cis-acting element)的识别;DNA甲基化、组蛋白修饰、核小体定位
- DNA甲基化:甲基化DNA免疫共沉淀测序(Methylated DNA immunoprecipitation sequencing, MeDIP-seq)、甲基化DNA(蛋白)结合域测序(Methylated DNA binding domain sequencing, MBD-seq)和亚硫酸氢盐测序(Bisulfite sequencing, BS-seq)
基因表达分析
基因表达检测方法
- 实时荧光定量PCR(Quantitative real time PCR, qRT-PCR)
- 基因(表达谱)芯片(Microarray)
- 表达序列标签(Expressed Sequence Tag, EST)
- 基因表达系列分析(Serial Analysis of Gene Expression, SAGE)
- 转录组测序
PCR技术应用最为成熟,灵敏度高,特异性强,但其缺点是通量较小;基因芯片方便快捷,适合临床诊断及个体基因组分析;基因测序技术通量高,但周期长、成本高
基因芯片是什么
基因芯片又称DNA微阵列,按照检测物的不同,可分为DNA芯片、RNA芯片等,其中DNA芯片又可分为单核苷酸多肽性(SNP)芯片、比较基因组杂交(CGH)芯片等。
原理:基于A、T;C、G互补理论,将已知序列的核酸探针与未知序列的核酸序列进行杂交检测DNA,并且DNA探针以显微打印的方式大规模集成于芯片(类似于计算机的硅芯片)表面。杂交后通过计算机对杂交信号的检测分析,得出样品的遗传信息(基因序列及表达的信息)。分析单核苷酸变异多态性性价比较高。 基因芯片原理主流寡聚核苷酸芯片主要有:Affymetric、Agilen、Illumina公司
基因表达数据
矩阵表示:行名代表一个基因不同条件/样本的表达,列名代表某个条件/样本的所有基因表达。数据代表表达水平。那么一般分析什么?
- 不同样本/处理中哪些基因表达有显著差异?
- 基因之间有什么共有的功能,或者参与哪些共同代谢途径?
- 不同的处理中,哪些基因变化一致,它们受到上游哪些基因的调节,或者它们控制下游哪些基因的表达?
- 哪些基因表达存在样本特异性,也就是说通过他们的表达可以判断样本的状态(如:细胞的增殖、分化、凋亡、应激、癌变等)
主要的分析
主要有差异显著性分析和时间序列分析,后者主要是测定基因多个时间点的表达量,然后聚类+主成分分析寻找共调控基因
表达显著性分析就是为了找差异基因(DEG)。那么怎样判断基因间是有差异的呢?常用的有3种算法:一是倍数分析(无统计假设),计算每个基因在不同条件/样本的比值,再与阈值比较;二是用统计模型T检验等方法,计算差异表达的置信度p值,以0.05或者0.01作为阈值;三是机器学习方法,利用贝叶斯模型、随机森林等。分析的结果从来不用担心没有差异基因,而是要考虑差异基因可能存在很多,从几十个到上百个不等,那么如何展示他们呢,一张简单粗暴的大表格吗?肯定是不行的!
需要把上游的这些差异基因再进行注释、分组,一个类别就相当于一个GO term,然后看这几大类的区别,肯定比看几十甚至上百个基因或蛋白的差异要更加直观,这就是富集分析,包括GO分析,KEGG分析,GSEA分析等。其中重点研究的基因集叫做前景基因,需要比对的所有基因集叫背景基因,前景是背景的子集。例如转录组数据中的对照组和处理组,处理与对照之间的差异基因就是前景基因,两组所有的表达基因就是背景基因。富集分析的目的就是根据不同功能,把各个分子进行分类,然后使用超几何分布检验进行分析。当然使用不同工具,得到的结果不同,现在clusterProfiler要比DAVID的结果更多。
GO分析(Gene Ontology)
包括GO terms(标签)+GO annotations(注释)。
-
GO terms存在于由基因本体联合会(Gene Ontology Consortium)建立的数据库中,对基因和蛋白功能进行限定和描述,每个注释信息都有一个GO ID。它由两部分构成,第一部分都是
GO
,第二部分是以0开头的7位数字,例如GO:0016021
。GO是一个情报员,他负责调查:包括基因的分子功能:“干啥的”(molecular function,MF),指分子所执行的任务【如与碳水化合物结合或ATP水解酶活性等】、细胞组分:“活动区域”即产物发挥作用的位置(cellular component,CC)【如核仁、端粒和识别起始的复合物】、参与的生物过程:“近期有什么动静”(biological process,BP)【嘌呤代谢、有丝分裂等】GO调查完就给被查对象贴标签term
-
GO annotations即GO注释,是针对基因产物的而不是基因,表示某些基因的产物是是非编码RNA、蛋白质还是大分子等。这里GO就相当于一个中间媒介,它对基因进行定义GO term,然后其他各个数据库使用GO的定义方法,对它们的基因产物进行标注,例如一个数据库的EntrezID或SYMBOL与GO数据库进行ID对应,或者用一个数据库的序列与GO term进行对应。
在一个GO注释中,例如,一个基因的产物是细胞色素c(cytochrome c),那么这个基因的产物就会被一个分子功能术语(Molecular Function)描述为氧化还原酶活性(oxidoreductase activity ),被生物过程(Biological Process)描述为氧化磷酸化(oxidative phosphorylation ),被细胞成分(Cellular Component )描述为线性体基质(mitochondrial matrix )和线粒体内膜(mitochondrial inner membrane )~引用自“读研笔记”
pathway代谢通路
GO负责分门别类,而pathway负责把每一类对应到具体的代谢网络中。研究pathway的原因是:生物学问题中设定一个“蝴蝶效应”假设:1个Pathway上游基因的改变,会导致下游相关基因改变,从而改变通路中大量基因的表达。现在常用是KEGG,但是它收录的都是是已有的研究结果,而这些信息,还没有完善
熟悉一下Bioconductor
Bioconductor拥有上千个扩展包,主要有实验数据包、软件包、注释数据包三大类,例如白血病的ALL包就是利用Affymetrix进行芯片分析的数据包;但最重要的当属软件包
软件包:
-
注释:GO、Pathway等
-
微阵列板块(Assay Domains):处理芯片数据,Bioconductor支持主流的Affymetrix的商业化单色寡聚核苷酸芯片,也支持用户定制的双色cDNA芯片。芯片数据一般流程:数据预处理、差异表达基因筛选、聚类分析。这里的包有以下几部分:
- 比较基因组杂交(Comparative Genomic Hybridization, CGH)
- 细胞水平检测(Cell Based Assays)
- 染色质免疫共沉淀芯片(ChIPchip)
- 拷贝数变异(Copy Number Variants)
- CpG岛(CpGIsland)
- 差异表达(Differential Expression)
- DNA甲基化(DNA Methylation)
- 外显子检测(Exon Assay)
- 基因表达(Gene Expression)
- 遗传变异性(Genetic Variability)
- 单核苷酸多态性(SNP)
- 转录
-
测序技术(Assay techs)
- 芯片技术(Microassay)
- 微孔板检测(Microtitre Plate Assayå)
- 质谱(Mass Spectrometry)
- 基因表达系列分析(SAGE)
- 流式细胞仪(Flow Cytometry)
- NGS
-
数据处理:基因芯片数据预处理(背景矫正、归一化、质控)、芯片分析、基因间关系、样本间关系、识别差异基因
聚类分析(Clustering)、分类(Classification)、富集分析(Enrichment)、多组比较(Multiple Comparison)、预处理(Preprocessing)、质控、序列匹配、时间序列分析(Time Course)、可视化、网络分析
欢迎关注我们的公众号~_~
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com