资源！果子的GEO芯片分析教程汇总。

2019-07-18 本文已影响58人 9d760c7ce737

这是个导航帖，可以有效解决芯片分析的大部分问题。内容抵得上一个GEO的培训班。

首先用20%的精力解决80%的分析，可以看这篇，可以对GEO表达谱芯片有个大致的了解
来完成你的生信作业，这是最有诚意的GEO数据库教程
在果子学生信公众号回复"果子学生信"，可以自助获取R语言环境的配置教程,以及这篇帖子的讲解视频。
上面那个帖子里面缺失的部分是GSEA分析，GSEA分析不需要认为设定差异基因，是个神器，可以在这里找到方法。
很有诚意！人人可做的转录组数据下游分析

接下来用80%的精力解决剩下的20%分析
GEO分析有三个限速环节
第一个是探针ID转换：
简单说来，GEO芯片的探针ID转换，包括三个层面：

第一，R包注释

如果有平台对应的R包，我们就直接下载对应的R包去转换
平台和R包的对应关系我们对应了一个platformMap文件，在果子学生信微信公众号回复“果子学生信”即可获取

第二，平台获取

如果平台没有对应的R包，我们可以下载平台的注释文件，自己提取。
所有的探针ID转换，我们至少要获取两列数据，第一列是已有的探针，第二列对应的基因ID。
有以下的帖子可供参考
skr！GEO芯片数据的探针ID转换
 有些GEO平台的探针转换比较麻烦
 正则表达式是我们认识世界的哲学
 学习正则表达式-stringr这个包的使用-极简入门
 GEO芯片中的NM_，NR_开头的识别号如何转换成基因名称？

第三，序列比对

非编码GEO芯片的探针ID转换常常平台信息给出的是序列。
这个稍微有点困难，我们也写了教程，甚至提供了常见平台转换好的文件。在果子学生信微信公众号回复“果子非编码”即可自助获取。
GEO芯片分析的倒数第2个关卡被没有了
如果完成了探针ID的转换，想在各种不同数据库中来回转换，应该看这个帖子：
如何让基因名称在多个数据库间随意转换？

第二个限速环节是差异分析
Limma求差异基因构建矩阵的两种方式
这里面其实需要我们做的不多，我们只要解决，如何分组，但是分组，并不需要处理组都在前面，对照组都在后面，只要跟样本顺序一致即可，请看下面这个帖子
GEO的样本名称太多而且排序不规则，你们都是手动分组的么？
接下来解决的是如何分两个组，分多个分组，配对分组的事情
GEO芯片分析中的大坑，差异基因完全相反！
GEO芯片如果超过了两组，也可以一次搞定差异分析
 GEO芯片中配对样本如何做差异分析
这里面的原理就是使用了因子的水平来排序。
因子(factor)就像贤内助，让你始终分清主次，拨开云雾。
第三个限速环节是多芯片联合分析
这个我写过一点教程，但是实操的部分还在制作当中，把这个部分解决了，那么GEO表达谱芯片分析就已经没有了阻碍：
批次效应这样矫正
 批次效应有时候真麻烦！
除此之外，还有一些再看看其他的：
比如这个，如果我用临床医生的视角会很容易解决
GEO芯片中多个探针对应一个基因，是求平均值还是保留最大值？
刚才那是多个探针对应一个基因，还有一个探针对多个基因的情况
如果GEO中一个探针对应多个基因，如何把这个探针全部删掉？
其他的随意看看，作为补充
画一个火山图
 画一张热图
 QQ-plot
理解 Quntile Normalization
K均值聚类预测未知分类信息
 主成分分析PCA预测未知分类信息
 K邻近算法来分析芯片数据
 支持向量机SVM来预测芯片未知信息
 使用CARET包中的支持向量机SVM来做模型预测
当然这一切需要的是R语言
学习R语言，从这一课开始。
不会代码也可以看看这一个，有点过时了，但是这里面直接用GEO2R来分析的想法，可以帮我们判定，当前这个芯片是否能够直接用R语言来分析。
无代码芯片分析图文教程：每个人都可以做一做的生信第1题
就完成度来看，目前这个帖子离我的预期还剩下多芯片分析那一点点距离，很快，我们就会把它填充完成。

资源！果子的GEO芯片分析教程汇总。

第一，R包注释

第二，平台获取

第三，序列比对

猜你喜欢

热点阅读