生物信息学从零开始学科研信息学生物信息学与算法

获取人与鼠的同源基因ID和基因名

2019-02-10  本文已影响2人  落寞的橙子

下载NCBI的数据

下载网址如下:ftp://ftp.ncbi.nih.gov/pub/HomoloGene/
下载最新的homologene.data数据

读取数据,我放到excel转换为csv格式后进行读取

rt<-read.csv("/Volumes/lab-cao/CFJiang/Annotation/homologene.csv",header = F)

观察数据

rt[1:20,1:6]
   V1    V2        V3              V4        V5             V6
1   3  9606        34           ACADM   4557231    NP_000007.1
2   3  9598    469356           ACADM 160961497 NP_001104286.1
3   3  9544    705168           ACADM 109008502 XP_001101274.1
4   3  9615    490207           ACADM 545503811 XP_005622188.1
5   3  9913    505968           ACADM 115497690 NP_001068703.1
6   3 10090     11364           Acadm   6680618    NP_031408.1
7   3 10116     24158           Acadm 292494885    NP_058682.2
8   3  7955    406283           acadm 390190229    NP_998175.2
9   3  7227     38864         CG12262  24660351    NP_648149.1
10  3  7165   1276346 AgaP_AGAP005662  58387602    XP_315683.2
11  3  6239    173979          acdh-8  17534899    NP_495142.1
12  3  6239    181758          acdh-7  17570075    NP_510789.1
13  3  8364 100494748           acadm 512837304 XP_002936129.2
14  5  9606        37          ACADVL   4557235    NP_000009.1
15  5  9598    455237          ACADVL 332847152 XP_003315394.1
16  5  9615    489463          ACADVL 345800108    XP_546581.3
17  5  9913    282130          ACADVL  27806205    NP_776919.1
18  5 10090     11370          Acadvl  23956084    NP_059062.1
19  5 10116     25363          Acadvl   6978435    NP_037023.1
20  5  7955    573723          acadvl  47086807    NP_997776.1

可以看到第一列(V1)可以归纳为一个簇,即不同物种的该基因理论是同源的。V2为种属的编号,如human为9906,鼠为10090。V3 为基因的NCBI ID,V4为NCBI的基因名,V5为GI编号,GI编号具体参考这个网址。V6为refseq编号,编号含义可参考这个网址

分别提取鼠与人的信息

human<-rt[rt[,2]==9606,]
mouse<-rt[rt[,2]==10090,]
write.csv(human,"human_id.csv")
write.csv(mouse,"mouse_id.csv")

所以说根据上述信息可以分别查看mouse和human对应的ID信息。

上一篇下一篇

猜你喜欢

热点阅读