生物信息学与算法芯片分析课程笔记

注释及Gene Ontology基础知识

2018-04-26  本文已影响109人  x2yline

3. 芯片注释及GO注释

该笔记参考MD Anderson Cancer Center的课程Analysis of Microarray Data,课程网址:http://bioinformatics.mdanderson.org/main/Education:MicroarrayCourse

感谢生信技能树【生信课程-国外部分 】板块的推荐:http://www.biotrainee.com/thread-62-1-2.html

3.1 芯片注释-联结基因信息与芯片

芯片的注释信息随着对基因认识及序列的改变而更新,Affymetrix公司维护的芯片注释信息每三个月更新一次

假设通过基因芯片,筛选出600个表达有差异的基因,我们想要知道:

(a)这些基因的变化体现了生物的何种功能的改变

(b)它们是否通过网络调控关系或在某些生物调控通路中发挥作用

3.2 下载Affymetrix芯片注释信息

首先进入官网http://www.affymetrix.com,免费注册一个账号,登录后,进入网站http://www.affymetrix.com/support/technical/byproduct.affx,在3‘Gene Expression Analysis Arrays这个条目下选择物种,再选择某种类型的芯片,如Human Genome U95 Set,其中library目录下的Human Genome U95 Av2 Array文件解压后含有U95 Av2即U95A第二版芯片的cdf文件;在Current NetAffx Annotation Files目录下含有最新版的注释文件。

Data Sheets中的说明文件(Human Genome U95 Set (pdf, 164 KB))注:U95 系列芯片不仅有A还有B,C,D,E这几种其他芯片,Affymetrix公司生产的芯片名称不同后缀有不同意义,如U95A代表U95这款芯片中的探针对应所有的已知基因(根据UniGene数据库的第95版设计的6000多个功能基因),而U95B~D代表这些芯片的探针还包括未知基因的EST序列设计的探针(根据dbEST/10-02-99数据库设计),后者用于发现新的功能基因,v2代表更新的第2版芯片

解压下载的zip文件后,发现文件大小可能大了10倍,该注释文件为csv格式,有41列,常用数据库ID信息可以点这里

列名 内容
Probe Set ID Affymerix探针的ID,CEL文件和CDF文件也使用该ID描述探针,其对应着某个基序列探针对,probe Set ID的详细介绍,每个Probe Set ID包括pm(完全匹配)和mm(错配),各自的10多个(16个)重复探针,所以每个芯片中一个Probe Set ID对应的探针序列种类为$2\bullet16=32$类,geneNames(data_ALL1)[1:2]结果为[1] "100_g_at" "1000_at"probeNames(data_ALL1)[1:32]结果为这两种探针的重复
GeneChip array 芯片的型号,所有探针都为同一型号芯片,该列为多余列
Species Scientific Name 芯片对应基因的物种名称,所有探针对应的基因为同一物种
Annotaton Date 注释信息最后更新的时间,同一注释文件的所有探针更新为同一时间
Sequence Type 探针的序列类型,包括Consensus(保守)和Exemplar squences, A Consensus sequence is usually the result of a aligned cluster of EST sequences. An Exemplar sequence is a cluster that includes a representative sequence from each gene group, indicating a transcript was available at the time of design. An Exemplar is a single nucleotide sequence taken directly from a public database. This sequence could be an mRNA or EST. A Consensus sequence, is a nucleotide sequence assembled by Affymetrix, based on one or more sequence taken from a public database.
Sequence Source 通常是GenBank,也有少数是来自The Institute for Genomic Research
Transcript ID(Array Design) 为某个公共数据库序列ID号加上设计探针依据的序列类型,如X60957cds
Target Description. 序列的详细描述,包括类型
Representative Public ID Genebank 或 Refseq数据库的ID
Archival UniGene Cluster. 在芯片设计时的Unigene ID号
UniGene ID 更新后(最新版本)的Unigene ID号
Genome Version. 序列比对时所用的基因组版本号
Alignments. 靶基因在基因组上的位置,用碱基位置和带法表示如chr16:30125426-30134539 (-) // 93.03 // p11.2
Gene Title. 基因标题(来自Unigene或Entrez Gene 数据库)mitogen-activated protein kinase 3
Gene Symbol 基因名(来自Unigene或Entrez Gene数据库)如MAPK3
Chromosomal Location. 基因的位置,用细胞遗传学中的带法表示如:chr16p11.2
Unigene Cluster Type 表示Unigene序列的类型,包括full length,est或未知(---)
Ensembl Ensembl数据库的编号
Entrez Gene Entrz Gene数据库的编号,有Entrez ID的基因比没有的更具有可信,它们的信息更全,并且与其他多种数据库都建立了很好的连接
SwissProt. 对应的蛋白质在SwissProt数据库的ID
EC EC数据库ID(很少看到,不太懂)
OMIM Online Mendelian Inheritance in Man (OMIM) 数据库ID,基因相关的遗传病数据库
RefSeq Protein ID. Genebank的蛋白相关保守序列ID
RefSeq Transcript ID Genebank的mRNA类型的保守序列ID,通常与前面的Representative Public ID 重复
FlyBase 果蝇drosophila数据库对应的ID
AGI. 拟南芥Arabidopsis数据库ID
WormBase. 线虫C. elegans数据库对应的ID
MGI Name 小鼠mouse数据库对应的ID
RGD Name 大鼠rat数据库对应的ID
SGD accession number. 酵母saccharomyces数据库对应的ID
Gene Ontology Biological Process. 相关GO BP的ID和名称
Gene Ontology Cellular Component. 相关GO CC的ID和名称
Gene Ontology Molecular Function 相关GO MF的ID和名称
Pathway. 相关通路的名称
InterPro 一个蛋白质结构与数据库InterPro的ID
Trans Membrane 如果有已知跨膜结构域序列,则会注明
QTL. 大鼠基因连锁数据库RatMap提供与疾病连锁相关的信息,只有大鼠芯片才有
Annotation Description. 探针注释的方法,并且根据注释质量分为几个等级,A为最高等级
Annotation Transcript Cluster. EntrezGene or UniGene transcript clusters available for the probe set. These records may represent families of transcripts and the strongest collection of evidence for a gene related to a probe set. After the accession, the number of matching probes is given in parentheses.(括号后是设计的探针种类数目
Transcript Assignments. 非常长的注释信息
Annotation Notes. 其他备注信息,包括Cross Hybridizing Probe Sets,Reverse Complement Probe Sets,Transcript Accessions的整合

3.3 GO(Gene Ontology)数据库

GO用有向无环图(DAG,directed acycilc graph)的形式,通过严格控制词汇对基因的功能进行描述

3.3.1 基本组成

GO数据库由两部分组成:

  1. GO注释(GOA),由Entrez等数据库进行维护更新,每个基因都有很多个功能的注释,每个功能代表了一个GO term,因此一个基因可能对应多个term如下所示HELLS蛋白对应的多个GO term(也可以在官网查找:http://amigo.geneontology.org/amigo/search/annotation?q=*:*&fq=bioentity:%22UniProtKB:Q9NRZ9%22),其下载入口为:http://www.geneontology.org/page/download-go-annotations注意第3~5行都是同一个GO term,GO:000551,但是其PMID不同,也就是参考的文献不同(一般都是高通量实验文章)】

    UniProtKB    Q9NRZ9  HELLS       GO:0000775  GO_REF:0000024  ISS UniProtKB:Q60848    C   Lymphoid-specific helicase  HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143    protein taxon:9606  20061106    UniProt
    UniProtKB    Q9NRZ9  HELLS       GO:0004386  GO_REF:0000037  IEA UniProtKB-KW:KW-0347    F   Lymphoid-specific helicase  HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143    protein taxon:9606  20180324    UniProt
    UniProtKB    Q9NRZ9  HELLS       GO:0005515  PMID:17314511   IPI UniProtKB:P01106    F   Lymphoid-specific helicase  HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143    protein taxon:9606  20180326    IntAct
    UniProtKB    Q9NRZ9  HELLS       GO:0005515  PMID:17353931   IPI UniProtKB:P01106    F   Lymphoid-specific helicase  HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143    protein taxon:9606  20180326    IntAct
    UniProtKB    Q9NRZ9  HELLS       GO:0005515  PMID:22157815   IPI UniProtKB:O00716    F   Lymphoid-specific helicase  HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143    protein taxon:9606  20180326    IntAct
    UniProtKB    Q9NRZ9  HELLS       GO:0005524  GO_REF:0000037  IEA UniProtKB-KW:KW-0067    F   Lymphoid-specific helicase  HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143    protein taxon:9606  20180324    UniProt
    UniProtKB    Q9NRZ9  HELLS       GO:0005634  GO_REF:0000039  IEA UniProtKB-SubCell:SL-0191   C   Lymphoid-specific helicase  HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143    protein taxon:9606  20180324    UniProt
    UniProtKB    Q9NRZ9  HELLS       GO:0005721  GO_REF:0000024  ISS UniProtKB:Q60848    C   Lymphoid-specific helicase  HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143    protein taxon:9606  20061106    UniProt
    UniProtKB    Q9NRZ9  HELLS       GO:0006346  GO_REF:0000024  ISS UniProtKB:Q60848    P   Lymphoid-specific helicase  HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143    protein taxon:9606  20061106    UniProt
    UniProtKB    Q9NRZ9  HELLS       GO:0006351  GO_REF:0000037  IEA UniProtKB-KW:KW-0804    P   Lymphoid-specific helicase  HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143    protein taxon:9606  20180324    UniProt
    UniProtKB    Q9NRZ9  HELLS       GO:0007049  GO_REF:0000037  IEA UniProtKB-KW:KW-0131    P   Lymphoid-specific helicase  HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143    protein taxon:9606  20180324    UniProt
    UniProtKB    Q9NRZ9  HELLS       GO:0007275  GO_REF:0000024  ISS UniProtKB:Q60848    P   Lymphoid-specific helicase  HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143    protein taxon:9606  20061106    UniProt
    UniProtKB    Q9NRZ9  HELLS       GO:0010216  GO_REF:0000024  ISS UniProtKB:Q60848    P   Lymphoid-specific helicase  HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143    protein taxon:9606  20061106    UniProt
    UniProtKB    Q9NRZ9  HELLS       GO:0031508  GO_REF:0000024  ISS UniProtKB:Q60848    P   Lymphoid-specific helicase  HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143    protein taxon:9606  20061106    UniProt
    UniProtKB    Q9NRZ9  HELLS       GO:0046651  GO_REF:0000024  ISS UniProtKB:Q60848    P   Lymphoid-specific helicase  HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143    protein taxon:9606  20061106    UniProt
    UniProtKB    Q9NRZ9  HELLS       GO:0051301  GO_REF:0000037  IEA UniProtKB-KW:KW-0132    P   Lymphoid-specific helicase  HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143    protein taxon:9606  20180324    UniProt
    

  2. Gene Ontology提供了各种生物学功能(GO term)的层次关系,用DAG表示,由Gene Ontology委员会维护,描述基因的功能及功能之间的联系,从以下三个方面(GO term的三个类别)来对基因功能进行描述:

    • Biological process (what)
    • Molecular function(how)
    • Cellular component (where)

    因此共有3个Ontology,这三个分别为各个Ontology的level 1 term,level越高,其描述的功能越具体详细

    其下载入口为:<http://geneontology.org/page/download-ontology

    更加直观的显示入口:http://amigo.geneontology.org/amigo/dd_browse
    查看某个term包含的基因:http://amigo.geneontology.org/amigo/term/GO:0005515

    可视化入口:http://amigo.geneontology.org/visualizehttp://amigo1.geneontology.org/cgi-bin/amigo/term_details?term=GO:0006346如:输入{"GO:0006346":{ "fill": "blue"}},结果如下:** 越往下走level数越高 **,功能越具体

visualize.png

各GO terms的关系有两种,一是is_a(表特殊情况,Subclass),二是part_of(表组成部分,Membership)【5_prime_UTR is part_of a transcript, and mRNA is_a kind of transcript 】。在对基因进行GO注释时,注释在高level下的基因同时也能注释在该term的母节点上

3.3.2 证据的级别

证据质量的级别可以分为6个:

  1. IDA, TAS
  2. IMP,IPI,IGI
  3. ISS,IEP
  4. NAS
  5. IEA
  6. IC
证据代码 详细内容
IDA(inferred from direct assay) 有文献通过实验直接证明的功能
TAS(traceable author statement) 综述或教科书中的描述,并且有相应参考文献
IMP(inferred from mutant phenotype) 突变实验(敲除或敲降)证明
IPI(inferred from physical interaction) 免疫共沉淀等方法证明有物理结合
IGI(inferred from genetic interaction) 从协同致死作用或互补及抑制的遗传学实验证明
ISS(inferred from sequence or structure similarity) 通过Blast比对推测,被综述提及
IEP(inferred from expression pattern) 通过Norther,Western或芯片实验表明其表达的时期和部位信息
NAS(non-traceable author statement) 在文章摘要,背景或讨论部分出现,但是没有原始引用
IEA(inferred from electronic annotation) 根据序列相似性推测,但是没有被综述提及
IC(inferred by curator) 仅仅是根据某种理由推测(如某物质存在与核内,推测其具有转录因子功能)
ND(no biological data available) nly used for annotations to ”unknown”
NR (not recorded) used only for annotations created before curators started adding evidence codes

3.4 使用Gominer做GO富集分析(已经放弃,软件总是运行不了)

  1. 安装mysql数据库,并设置root密码为root

  2. 设置好环境变量后,在命令行输入mysql -uroot -proot进入mysql界面

  3. 在mysql中创建goDb数据库:

    create database IF NOT EXISTS goDb;
    
    grant ALL on *.* to 'root'@%  identified by 'root;
    

  4. 下载go数据库文件:http://archive.geneontology.org/,**go_daily-termdb-tables.tar.gz **,解压到go数据目录(自己创建的存放go数据文件的目录,如goData),并在goData目录下,创建loadDB.bat文件,文件内容如下:

for %%a in (%1\*.sql) do type %%a | mysql -u%2 -p%3 -D%4
for %%b in (%1\*.txt) do mysqlimport -L -u%2 -p%3 %4 %%b

  1. 在goData目录打开命令行,输入以下命令完成写入数据库操作
.\loadDB.bat . root root goDb

  1. 打开Gominer.jar文件,进入图形界面,【file】-【Load GO Terms】,
jdbc:mysql://10.10.23.200(我的电脑IP):3306/goDb
jdbc:mysql://localhost:3306/goDb
root
上一篇下一篇

猜你喜欢

热点阅读