Bioconductor学习生物信息学与算法Bioconductor for R

Bioconductor没想象的那么简单(part2)

2019-03-25  本文已影响40人  刘小泽

刘小泽写于2019.3.24

今天看看Bioconductor的注释资源

前言

Bioconductor的注释信息有许多用处,比如可以将Ensembl ID转为HUGO symbol,但数据注释是一个复杂的工作,根据功能和位置主要有下图几种形式

目前通常处理的生信数据格式主要有三类:实验数据(例如:表达矩阵Experimental data)、样本数据(Sample data)、注释数据(Annotation data)

可以存在三个不同的数据框,或者是ExpressionSet、SummarizedExperiment这样的对象

ExpressionSet

示例数据下载地址:https://github.com/jmacdon/Bioc2018Anno/blob/master/inst/extdata/eset.Rdata

> rm(list=ls())
> options(stringsAsFactors = F)
> load('eset.Rdata')
> eset
ExpressionSet (storageMode: lockedEnvironment)
assayData: 33552 features, 6 samples 
  element names: exprs 
protocolData: none
phenoData
  sampleNames: GSM2194079 GSM2194080 ... GSM2194084 (6 total)
  varLabels: title characteristics_ch1.1
  varMetadata: labelDescription
featureData
  featureNames: 16657436 16657440 ... 17118478 (33552 total)
  fvarLabels: PROBEID ENTREZID SYMBOL GENENAME
  fvarMetadata: labelDescription
experimentData: use 'experimentData(object)'
Annotation: pd.hugene.2.0.st 

eset中主要包含assayData、phenoData、featureData等

assayData: 表达矩阵(行为基因/探针名,列为样本),利用exprs提取
phenoData: 是AnnotatedDataFrame的一种,它的行数等于assayData的列数,相当于一些样本信息[上图中的Sample Data];
featureData:也是AnnotatedDataFrame的一种,它的行数等于assayData的行数,并且行名也相同,相当于一些基因信息[上图中的AnnotationData]

实验数据利用exprs取数据,利用pData看表型

> head(exprs(eset))
         GSM2194079 GSM2194080 GSM2194081 GSM2194082 GSM2194083 GSM2194084
16657436   8.505158   9.046577   8.382674   9.115481   8.715343   8.566301
16657440   7.948860   8.191222   7.901911   8.459781   8.191793   8.219658
16657450  10.932934  11.228553  10.948120  11.462231  11.300046  11.300886
16657469   9.172462   9.344630   9.193450   9.465584   9.464020   9.135715
16657473   6.222049   6.551035   6.000246   6.398798   5.892654   5.592125
16657476   8.514300   8.474073   8.407196   8.811238   8.780833   8.874606

> head(pData(phenoData(eset)))
                         title characteristics_ch1.1
GSM2194079   SW620-miR625-rep1     shRNA: miR-625-3p
GSM2194080   SW620-miR625-rep2     shRNA: miR-625-3p
GSM2194081   SW620-miR625-rep3     shRNA: miR-625-3p
GSM2194082 SW620-scramble-rep1       shRNA: scramble
GSM2194083 SW620-scramble-rep2       shRNA: scramble
GSM2194084 SW620-scramble-rep3       shRNA: scramble

> head(pData(featureData(eset)))
          PROBEID  ENTREZID      SYMBOL
16657436 16657436     84771     DDX11L2
16657440 16657440 100302278   MIR1302-2
16657450 16657450    402483   LINC01000
16657469 16657469    140849 LINC00266-1
16657473 16657473    729759      OR4F29
16657476 16657476    388574   RPL23AP87
                                                  GENENAME
16657436                     DEAD/H-box helicase 11 like 2
16657440                                   microRNA 1302-2
16657450       long intergenic non-protein coding RNA 1000
16657469      long intergenic non-protein coding RNA 266-1
16657473 olfactory receptor family 4 subfamily F member 29
16657476              ribosomal protein L23a pseudogene 87

注释资源

注释资源

使用AnnoDb包

主要函数就是select => select(annopkg, keys, columns, keytype)

其中:annopkg是注释包;keys是目前知道的ID号;columns是想得到的列;

keytype是使用的key的类型


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!
上一篇下一篇

猜你喜欢

热点阅读