鸡易呕

GEO数据挖掘视频笔记

2019-01-14  本文已影响0人  力达兄弟

项目总览

第一个视频主要是项目总览,介绍了整个课程的结构,每一讲主要要讲得东西,介绍了jimmy的github形式的教学,学员可以在clone or download里download整个项目文件夹,按照github上的提示完成整个流程。jimmy提醒大家学习R语言的时候要养成用文件夹+Project的形式来组织内容,即,在项目文件夹下面具有一个 XXX.Rproj的文件以及所有输入的数据以及所有产出的结果。这样做的好处有三点:

P1-通用文献阅读及规律

本个视频主要介绍了阅读做GEO数据分析的文献阅读技巧。首先,要知道数据来源,看文献,可以找到GSE号,不是GEO数据库的在此不做讨论;找到GSE号,可以采用URL拼接的方式,来到数据的主要,可以了解到实验室在哪个平台做的,实验的样本数以及分组情况。文献中还可以知道该分析用什么R包做了差异基因分析,知道筛选的阈值,即P值,logFoldchange等。知道了这些之后,我们接下来就要对数据进行下载以及处理。

P2-了解GEO数据库

这个视频主要介绍了GEO数据库,可以通过jimmy的微信推文,https://mp.weixin.qq.com/s/4tKmmxXrGoTfH3-sYLnRcg详细地了解,主要要知道的是四个简称:

P3- 数据下载的3种方式

这一讲介绍了三种下载GEO数据的方式,分别为:

  1. 安装GEOquery包;
  2. library这个包,出现红字没有问题;
  3. 对照说明书操作。操作中出现问题的话,可以参考这两篇文章(后面更新的):
  1. 读取压缩包,a=read.table('文件名');参数:(sep='\t',quote="",fill=T,comment.char="!",head=T)
    思路:
    1.先看一眼表达矩阵,前面的!不需要,看一眼字符间是使用什么分割的。
    2.使用步骤4的代码来操作。

P4- ID转换技巧大全

此视频介绍了将下载过来的数据进行转换的预处理,要解决的问题就是:一个基因可能会设置多个探针去测它,所以就会有多个探针对应一个基因名,我们想要知道的是一个基因对应的表达量,所以要把探针与基因进行对应,修改这个下载过来的表达矩阵。
所以要做的事情包括:

  1. 获取探针信息
  2. 获取探针信息与基因的对应关系(有两种方式,可以下载Bioconductor的包或者用getGEO来获得GPL的平台信息)
  3. 将探针与基因的顺序对应好
  4. 把一个基因对应对个探针的探针给过滤掉,选择均值最大的探针对应的表达量
  5. 把探针替换成相对应的基因
    思路大概是这样的,通过这样的方式,我们就可以获得第一列是基因名,第一行是样品名,中间都是表达量的一个矩阵,可以进行下一步的操作了。
    具体的代码还要自己照着再运行一遍。

P5 了解你的表达矩阵

下载好数据,处理好基因ID之后的表达矩阵,我们得知道这个表达矩阵是不是对的,所以要根据分组信息等对表达矩阵进行处理(20题中有范例)。
检验常见管家基因的表达量,做PCA分析以及Hclass图,判断所分析的矩阵的质量情况
1.可以检测一下表达矩阵中的内参基因的表达量,看是否与实际情况相符合,如GAPDH,ACTB等

  1. 看表达矩阵的分布图:各个样本表达量的boxplot,可以学习使用ggplot画图的方法,有一些原理的介绍,可以自己再延伸学习。
  2. 若分组之间的样本的表达水平差异较大,则需要进行校正。
  3. PCA图以及Hclass图:hclass的图可以出聚类以及进化图。PCA图:ggfortyify包,关键成分的分析。
    对于课程的数据:下载好的数据需要将它保存为对象,下次只需要再load它就好。

P6 差异分析

这一文介绍了使用limma包来做差异分析,对于所有的函数或者是包,我们得先明白它要求的Input是什么以及它可以给我们的Output是什么。而Limma包需要的是表达矩阵以及分组矩阵以及差异比较矩阵;接下来视频介绍了一下流程,还是需要根据代码自己运行一遍;这一讲更加加强了包以及函数的概念,也介绍了一些代码的使用原因。最重要的还是自己运行以后自己梳理一遍。代码网址为:http://www.bio-info-trainee.com/bioconductor_China/software/limma.html

P7 火山图及热图制作及美化

本视频介绍了火山图的绘制以及使用clusterprofiler来进行富集分析,火山图就是一个横坐标为logFC,纵坐标为-log10(p value)的点状图;而富集分析就是对差异基因的结果进行的注释,它是通过数据库以及得到的差异分析做而做的一个超几何分布检验,原理的话视频中有讲,也需要自己结合统计来学习。通过已经有的包clusterprofilter可以进行富集分析,需要自己操作一下。

P8 KEGG,GO等数据库的注释及GSEA分析

通过KEGG,GO等数据库等进行的注释进行的分析,是假定每个基因的地位都是相等的,而在现实中,我们常常是有自己关心的基因,所以说基因是有重要不重要的区别的,这个时候就需要用到GSEA分析,本视频主要是通过clusterprofilter这个包进行GSEA分析,中间涉及到数据格式的转换,主要要熟悉R语言,原理的东西可以看之前的培训视频。

P9 收尾

最后介绍了GEO project这个项目的使用方法。需要对这个文件进行每一步的运行,如果需要进阶的话则需要看paper进行学习。

P10 批量生存分析代码大放送

本视频是一个福利,jimmy对一个数据集进行了一系列的操作演示,并加入了生存分析的操作。可以根据视频以及代码进行运行。其中的根据感兴趣的基因做差异分析很适合结合到自己的课题中。最后,R语言是生信编程里很重要的一部分,R语言得花时间去学习。

上一篇下一篇

猜你喜欢

热点阅读