NGS 学习资源收集生物信息学学习

R plus 生物~Bioconductor

2018-09-07  本文已影响35人  刘小泽

刘小泽写于18.9.7

各行各业数据呈爆炸式增长,大量的数据等待被处理,R语言就是一个利器,可以说是做数据分析必备的编程语言。当强大的R与包罗万象的生物结合,再一次刺激了R的迅猛发展。随着NGS测序的普及,R语言的生信专业社区Bioconductor诞生,开启了生物信息的R语言时代。
好工具,用起来,首先要了解生物数据与R之间的关联

生物知识回顾

基因表达分析

基因表达检测方法

PCR技术应用最为成熟,灵敏度高,特异性强,但其缺点是通量较小;基因芯片方便快捷,适合临床诊断及个体基因组分析;基因测序技术通量高,但周期长、成本高

基因芯片是什么

基因芯片又称DNA微阵列,按照检测物的不同,可分为DNA芯片、RNA芯片等,其中DNA芯片又可分为单核苷酸多肽性(SNP)芯片、比较基因组杂交(CGH)芯片等。

原理:基于A、T;C、G互补理论,将已知序列的核酸探针与未知序列的核酸序列进行杂交检测DNA,并且DNA探针以显微打印的方式大规模集成于芯片(类似于计算机的硅芯片)表面。杂交后通过计算机对杂交信号的检测分析,得出样品的遗传信息(基因序列及表达的信息)。分析单核苷酸变异多态性性价比较高。 基因芯片原理

主流寡聚核苷酸芯片主要有:Affymetric、Agilen、Illumina公司

基因表达数据

矩阵表示:行名代表一个基因不同条件/样本的表达,列名代表某个条件/样本的所有基因表达。数据代表表达水平。那么一般分析什么?

主要的分析

主要有差异显著性分析和时间序列分析,后者主要是测定基因多个时间点的表达量,然后聚类+主成分分析寻找共调控基因

表达显著性分析就是为了找差异基因(DEG)。那么怎样判断基因间是有差异的呢?常用的有3种算法:一是倍数分析(无统计假设),计算每个基因在不同条件/样本的比值,再与阈值比较;二是用统计模型T检验等方法,计算差异表达的置信度p值,以0.05或者0.01作为阈值;三是机器学习方法,利用贝叶斯模型、随机森林等。分析的结果从来不用担心没有差异基因,而是要考虑差异基因可能存在很多,从几十个到上百个不等,那么如何展示他们呢,一张简单粗暴的大表格吗?肯定是不行的!

需要把上游的这些差异基因再进行注释、分组,一个类别就相当于一个GO term,然后看这几大类的区别,肯定比看几十甚至上百个基因或蛋白的差异要更加直观,这就是富集分析,包括GO分析,KEGG分析,GSEA分析等。其中重点研究的基因集叫做前景基因,需要比对的所有基因集叫背景基因,前景是背景的子集。例如转录组数据中的对照组和处理组,处理与对照之间的差异基因就是前景基因,两组所有的表达基因就是背景基因。富集分析的目的就是根据不同功能,把各个分子进行分类,然后使用超几何分布检验进行分析。当然使用不同工具,得到的结果不同,现在clusterProfiler要比DAVID的结果更多。

GO分析(Gene Ontology)

包括GO terms(标签)+GO annotations(注释)。

在一个GO注释中,例如,一个基因的产物是细胞色素c(cytochrome c),那么这个基因的产物就会被一个分子功能术语(Molecular Function)描述为氧化还原酶活性(oxidoreductase activity ),被生物过程(Biological Process)描述为氧化磷酸化(oxidative phosphorylation ),被细胞成分(Cellular Component )描述为线性体基质(mitochondrial matrix )和线粒体内膜(mitochondrial inner membrane )~引用自“读研笔记”

pathway代谢通路

GO负责分门别类,而pathway负责把每一类对应到具体的代谢网络中。研究pathway的原因是:生物学问题中设定一个“蝴蝶效应”假设:1个Pathway上游基因的改变,会导致下游相关基因改变,从而改变通路中大量基因的表达。现在常用是KEGG,但是它收录的都是是已有的研究结果,而这些信息,还没有完善

熟悉一下Bioconductor

Bioconductor拥有上千个扩展包,主要有实验数据包、软件包、注释数据包三大类,例如白血病的ALL包就是利用Affymetrix进行芯片分析的数据包;但最重要的当属软件包

软件包:

  1. 注释:GO、Pathway等

  2. 微阵列板块(Assay Domains):处理芯片数据,Bioconductor支持主流的Affymetrix的商业化单色寡聚核苷酸芯片,也支持用户定制的双色cDNA芯片。芯片数据一般流程:数据预处理、差异表达基因筛选、聚类分析。这里的包有以下几部分:

    • 比较基因组杂交(Comparative Genomic Hybridization, CGH)
    • 细胞水平检测(Cell Based Assays)
    • 染色质免疫共沉淀芯片(ChIPchip)
    • 拷贝数变异(Copy Number Variants)
    • CpG岛(CpGIsland)
    • 差异表达(Differential Expression)
    • DNA甲基化(DNA Methylation)
    • 外显子检测(Exon Assay)
    • 基因表达(Gene Expression)
    • 遗传变异性(Genetic Variability)
    • 单核苷酸多态性(SNP)
    • 转录
  3. 测序技术(Assay techs)

    • 芯片技术(Microassay)
    • 微孔板检测(Microtitre Plate Assayå)
    • 质谱(Mass Spectrometry)
    • 基因表达系列分析(SAGE)
    • 流式细胞仪(Flow Cytometry)
    • NGS
  4. 数据处理:基因芯片数据预处理(背景矫正、归一化、质控)、芯片分析、基因间关系、样本间关系、识别差异基因

    聚类分析(Clustering)、分类(Classification)、富集分析(Enrichment)、多组比较(Multiple Comparison)、预处理(Preprocessing)、质控、序列匹配、时间序列分析(Time Course)、可视化、网络分析


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!
上一篇下一篇

猜你喜欢

热点阅读