GEO数据挖掘视频笔记

2019-01-14 本文已影响0人力达兄弟

项目总览

第一个视频主要是项目总览，介绍了整个课程的结构，每一讲主要要讲得东西，介绍了jimmy的github形式的教学，学员可以在clone or download里download整个项目文件夹，按照github上的提示完成整个流程。jimmy提醒大家学习R语言的时候要养成用文件夹+Project的形式来组织内容，即，在项目文件夹下面具有一个 XXX.Rproj的文件以及所有输入的数据以及所有产出的结果。这样做的好处有三点：

可以直接定位到所有数据以及代码
不用考虑环境变量
不需要修改路径。
理解这3个好处还是得先有环境变量、路径这些的概念。下载好github的文件夹之后，需要总览一下代码，需要理解一下每行代码的意思。在下载的时候需要考虑网络的问题，下载失败很可能是因为网络不好。
最后本课程是有偿学习，自愿付费，付费可以扫描最后的二维码，给jimmy的邮箱jmzeng1314@163.com发邮件，也会有意外的惊喜。也可以选择在腾讯课堂进行购买学习。

P1-通用文献阅读及规律

本个视频主要介绍了阅读做GEO数据分析的文献阅读技巧。首先，要知道数据来源，看文献，可以找到GSE号，不是GEO数据库的在此不做讨论；找到GSE号，可以采用URL拼接的方式，来到数据的主要，可以了解到实验室在哪个平台做的，实验的样本数以及分组情况。文献中还可以知道该分析用什么R包做了差异基因分析，知道筛选的阈值，即P值，logFoldchange等。知道了这些之后，我们接下来就要对数据进行下载以及处理。

P2-了解GEO数据库

这个视频主要介绍了GEO数据库，可以通过jimmy的微信推文，https://mp.weixin.qq.com/s/4tKmmxXrGoTfH3-sYLnRcg详细地了解，主要要知道的是四个简称：

GEO platform,即GPL，是指该实验是在什么芯片或者测序仪上做的，单独定制的芯片也会有一个GPL号，GPL会记录探针以及基因的对应关系；
GEO series,即GSE，一个实验或者一篇文章会给一个GSE号，当然有些文章会有多个GSE号；
GEO sample, 即GSM，指一个实验中每一个独立样本的编号；
GEO dataset，即GDS，用到的比较少，指根据研究目的将多个样本整合成一个数据集。
本视频还介绍了RefSeq数据库，http://www.biotrainee.com/thread-213-1-1.html这篇文章有详细的介绍，主要知道NG、NM、NP、XM,XR、XP分别代表什么。
本视频还介绍了关于芯片的基础知识，http://www.biotrainee.com/thread-899-1-1.html，此处有详细得介绍，当然还是要自己结合其它的资料进行总结的。
另外关于GEOquery包的介绍，应该是在下一讲中有具体的介绍。

P3- 数据下载的3种方式

这一讲介绍了三种下载GEO数据的方式，分别为：

下载raw data，存在问题：不同芯片的原始数据处理方式不一样；
下载series matrix,存在问题：网速问题；
在R里面读取GSE号，即使用GEOquery包，getGEO函数，存在问题：国内网络问题，无解；
getGEO的演示：

安装GEOquery包；
library这个包，出现红字没有问题；
对照说明书操作。操作中出现问题的话，可以参考这两篇文章（后面更新的）：

http://www.bio-info-trainee.com/3713.html；
http://www.bio-info-trainee.com/3719.html；
注：下载卡住的话（原因：下载这些数据要耗费海外节点，有些网吧有海外节点，因为游戏是海外的，jimmy推测），可以修改参数来减少下载量：分别是AnnotGPL=F,getGPL=F，另一个参数是destdir='.'，是保存的路径。

读取压缩包，a=read.table('文件名')；参数：(sep='\t',quote="",fill=T,comment.char="!",head=T)
思路：
1.先看一眼表达矩阵，前面的！不需要，看一眼字符间是使用什么分割的。
2.使用步骤4的代码来操作。

P4- ID转换技巧大全

此视频介绍了将下载过来的数据进行转换的预处理，要解决的问题就是：一个基因可能会设置多个探针去测它，所以就会有多个探针对应一个基因名，我们想要知道的是一个基因对应的表达量，所以要把探针与基因进行对应，修改这个下载过来的表达矩阵。
所以要做的事情包括：

获取探针信息
获取探针信息与基因的对应关系（有两种方式，可以下载Bioconductor的包或者用getGEO来获得GPL的平台信息）
将探针与基因的顺序对应好
把一个基因对应对个探针的探针给过滤掉，选择均值最大的探针对应的表达量
把探针替换成相对应的基因
思路大概是这样的，通过这样的方式，我们就可以获得第一列是基因名，第一行是样品名，中间都是表达量的一个矩阵，可以进行下一步的操作了。
具体的代码还要自己照着再运行一遍。

P5 了解你的表达矩阵

下载好数据，处理好基因ID之后的表达矩阵，我们得知道这个表达矩阵是不是对的，所以要根据分组信息等对表达矩阵进行处理（20题中有范例）。
检验常见管家基因的表达量，做PCA分析以及Hclass图，判断所分析的矩阵的质量情况
1.可以检测一下表达矩阵中的内参基因的表达量，看是否与实际情况相符合，如GAPDH，ACTB等

看表达矩阵的分布图：各个样本表达量的boxplot，可以学习使用ggplot画图的方法，有一些原理的介绍，可以自己再延伸学习。
若分组之间的样本的表达水平差异较大，则需要进行校正。
PCA图以及Hclass图：hclass的图可以出聚类以及进化图。PCA图：ggfortyify包，关键成分的分析。
对于课程的数据：下载好的数据需要将它保存为对象，下次只需要再load它就好。

P6 差异分析

这一文介绍了使用limma包来做差异分析，对于所有的函数或者是包，我们得先明白它要求的Input是什么以及它可以给我们的Output是什么。而Limma包需要的是表达矩阵以及分组矩阵以及差异比较矩阵；接下来视频介绍了一下流程，还是需要根据代码自己运行一遍；这一讲更加加强了包以及函数的概念，也介绍了一些代码的使用原因。最重要的还是自己运行以后自己梳理一遍。代码网址为：http://www.bio-info-trainee.com/bioconductor_China/software/limma.html

P7 火山图及热图制作及美化

本视频介绍了火山图的绘制以及使用clusterprofiler来进行富集分析，火山图就是一个横坐标为logFC,纵坐标为-log10（p value)的点状图；而富集分析就是对差异基因的结果进行的注释，它是通过数据库以及得到的差异分析做而做的一个超几何分布检验，原理的话视频中有讲，也需要自己结合统计来学习。通过已经有的包clusterprofilter可以进行富集分析，需要自己操作一下。

P8 KEGG，GO等数据库的注释及GSEA分析

通过KEGG，GO等数据库等进行的注释进行的分析，是假定每个基因的地位都是相等的，而在现实中，我们常常是有自己关心的基因，所以说基因是有重要不重要的区别的，这个时候就需要用到GSEA分析，本视频主要是通过clusterprofilter这个包进行GSEA分析，中间涉及到数据格式的转换，主要要熟悉R语言，原理的东西可以看之前的培训视频。

P9 收尾

最后介绍了GEO project这个项目的使用方法。需要对这个文件进行每一步的运行，如果需要进阶的话则需要看paper进行学习。

P10 批量生存分析代码大放送

本视频是一个福利，jimmy对一个数据集进行了一系列的操作演示，并加入了生存分析的操作。可以根据视频以及代码进行运行。其中的根据感兴趣的基因做差异分析很适合结合到自己的课题中。最后，R语言是生信编程里很重要的一部分，R语言得花时间去学习。