找GSE数据集+基因注释
2020-12-07 本文已影响0人
阿ll
【ppmm】如果要作GEO数据分析,最初的步骤总是逃不过寻找GEO数据集。另外,某些数据集的芯片平台(GPL)使用的人少,需要自己注释基因。所以就有了这篇……
1.找GEO数据集
法1:从文献中取用GSE号
优点:①文献能帮你快速了解文中的GEO数据集;②文献会提供一种数据集分析方法;③有时你可以借助文献判断自己分析结果的可用性。
缺点:在设计课题时思路可能会受到些影响。
法2:从GEO官网找:
有两种途径找GSE数据,并且两个方法所展示的数据集种类有些不同,个人喜欢从“series”进入:
优点:①结果直观并且可选择的数据集多;②只要关键词正确,就能快速找到想要的数据集;③数据集信息齐全,可以直接联系到数据集来源文章,能更全面了解数据集。
缺点:耗时,某些数据集的芯片平台(GPL)使用的人少,需要自己注释基因。
2. 基因注释
2.1 直接使用现有R包
先搜索能否直接利用包进行注释:生信菜鸟团:用R获取芯片探针与基因的对应关系三部曲-bioconductor
2.2 自己注释
-
soft文件的获取:
ftp://ftp.ncbi.nlm.nih.gov/geo/platforms/
-
利用Linux下载soft文件:① wget ② apex ;下载好以后通过文件传输工具(filezilla或winscp)放入R工作文件夹下;
-
读取数据并处理:
library(GEOquery) x=getGEO(filename = "GPL23126_family.soft")
(1) 从GPL中提取信息:“ID”,“SEQUENCE”;
y=x@dataTable@table[,c('ID','SEQUENCE')] head(y)
(2) 重复值统计
可以省略这一步
library(tidyverse) x=count(y,ID,sort = T) head(x)
(3) 去重复 - 两种方法
#法一:distinct选独特值; test1=distinct(y,ID,SEQUENCE) #法二:复制值“duplicated” test2=y[!duplicated(y),] test3= na.omit(test2) #去除NA nrow(test3) #与GEO网页上的行数进行对比,一致即正确,保存 save(test3,file = "GPL23126.Rdata") write.csv(test3,file = "GPL23126.csv",row.names = F) ids=read.csv("GPL23126.csv") head(ids)
请保存号“ids”文件,这个便是之后的注释文件。
另外,GPL注释有时会因为文件过大需要时间较长。