探针注释文件中没有基因名字怎么办?

2021-03-12  本文已影响0人  生信交流平台

大家都知道一般做生物信息学数据挖掘常用到的两个公共数据库,一个是☞TCGA☜,另外一个就是☞GEO了。TCGA数据库里面主要提供一些癌症相关的数据,虽然疾病类型比较单一,但是数据类型比较齐全,从DNA突变数据,到mRNA表达谱数据,从CNV(拷贝数变异)到甲基化数据,应有尽有。并且这些数据都是对应于同一个样本,这样的好处就是可以做多组学关联分析。GEO数据库里面的数据就包罗万象了,从肿瘤到心血管疾病,从阿滋海默到脑卒中,只要有人提交数据,你就能搜到。至于怎么样检索☞GEO数据库,我前面已经通过三期视频给大家详细讲解过了。

我们经常从GEO数据库下载一些芯片数据,做数据挖掘。虽然现在测序已经很普遍并且价格也已经很便宜了,但是挖掘别人的芯片数据可是一分钱都不用花哦!但是芯片数据有个比较讨厌的地方就是,表达谱矩阵里面使用的都是芯片内部的一个探针ID号,你如果想知道这个探针到底对应哪个基因,你就需要对探针做注释。好在绝大多数GEO里面的芯片数据都提供配套的表达谱矩阵和探针注释文件。但是总有一些特立独行的奇葩,就要让你感到弱小无助。比如说Agilent-045997 Arraystar human lncRNA microarray V3 (Probe Name Version),这是一款Agilent提供的研究lncRNA的商用芯片。在GEO里面对应的注释文件如下

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL16956

只有一个内部探针ID和探针序列,望穿秋水都找不到探针对应的基因名字。好不容易找到一套跟自己课题相关的数据,难道注定就这样擦肩而过。

不,今天小编就来拯救你的课题。

library(devtools)
#安装注释探针的R包
install_github("jmzeng1314/AnnoProbe")
#加载AnnoProbe这个包
library(AnnoProbe)
#选择要注释的探针类型
gpl='GPL16956'
#得到探针对应的基因名字
probe2gene=idmap(gpl,type = 'pipe')
#展示前10条结果
head(probe2gene)

展示前10条结果

感兴趣的小伙伴也可以试一下其他没有基因注释的探针类型,只需要把gpl='GPL16956'修改成相应的探针平台ID号就可以了。

这里小编也已经为大家准备好了一些比较常用的,但没有注释信息的芯片平台的注释文件,只需要通过R的load()函数加载需要的注释文件就可以了。☞点击获取注释文件☜。

参考资料:

  1. TCGA数据库介绍及数据下载☜

  2. GEO数据库介绍及数据下载

上一篇下一篇

猜你喜欢

热点阅读