2022

找GSE数据集+基因注释

2020-12-07  本文已影响0人  阿ll

【ppmm】如果要作GEO数据分析,最初的步骤总是逃不过寻找GEO数据集。另外,某些数据集的芯片平台(GPL)使用的人少,需要自己注释基因。所以就有了这篇……

1.找GEO数据集

法1:从文献中取用GSE号

优点:①文献能帮你快速了解文中的GEO数据集;②文献会提供一种数据集分析方法;③有时你可以借助文献判断自己分析结果的可用性。
缺点:在设计课题时思路可能会受到些影响。

法2:从GEO官网找:

有两种途径找GSE数据,并且两个方法所展示的数据集种类有些不同,个人喜欢从“series”进入:

GEO官网界面
优点:①结果直观并且可选择的数据集多;②只要关键词正确,就能快速找到想要的数据集;③数据集信息齐全,可以直接联系到数据集来源文章,能更全面了解数据集。
缺点:耗时,某些数据集的芯片平台(GPL)使用的人少,需要自己注释基因

2. 基因注释

2.1 直接使用现有R包

先搜索能否直接利用包进行注释:生信菜鸟团:用R获取芯片探针与基因的对应关系三部曲-bioconductor

2.2 自己注释

从GEO的soft文件中提取探针序列信息

  1. soft文件的获取:ftp://ftp.ncbi.nlm.nih.gov/geo/platforms/

  2. 利用Linux下载soft文件:① wget ② apex ;下载好以后通过文件传输工具(filezilla或winscp)放入R工作文件夹下;

  3. 读取数据并处理:

    library(GEOquery)
    x=getGEO(filename = "GPL23126_family.soft")
    

    (1) 从GPL中提取信息:“ID”,“SEQUENCE”;

    y=x@dataTable@table[,c('ID','SEQUENCE')]
    head(y)
    

    (2) 重复值统计

    可以省略这一步

    library(tidyverse)
    x=count(y,ID,sort = T)
    head(x)
    

    (3) 去重复 - 两种方法

    #法一:distinct选独特值;
    test1=distinct(y,ID,SEQUENCE)
    #法二:复制值“duplicated”
    test2=y[!duplicated(y),]
    test3= na.omit(test2) #去除NA
    nrow(test3)
    #与GEO网页上的行数进行对比,一致即正确,保存
    
    save(test3,file = "GPL23126.Rdata")
    write.csv(test3,file = "GPL23126.csv",row.names = F)
    ids=read.csv("GPL23126.csv")
    head(ids)
    

请保存号“ids”文件,这个便是之后的注释文件。
另外,GPL注释有时会因为文件过大需要时间较长。

上一篇 下一篇

猜你喜欢

热点阅读