HG-U95注释平台系列
作者:jzhang
前几天收到一个网有挺有意思的题问,如下:
出于好奇,我对这个GPL91,92,93,94,95平台进行了查看。根据上面提供的GSE编号,我找到了这个数据集合,确实是HG-U95。
image-20200729000956419.png
平台信息文件:
image-20200729002022940.png
然后看到了官网介绍:
The Human Genome U95 (HG-U95) Set, consisting of five GeneChip arrays, contains almost 63,000 probe sets interrogating approximately 54,000 clusters derived from the UniGene database (Build 95)。
意思是这个平台总共有63000个探针,使用了5个芯片。随后我去affy官网下载了这六个芯片平台的注释文件。http://www.affymetrix.com/support/technical/byproduct.affx?product=hgu95
下载了这最新版的六个文件:
使用R语言进行探索
rm(list=ls())
options(stringsAsFactors = F)
# 读取A平台
hg_u95a <- read.table("../annot/HG_U95A.na36.annot.csv",header = T,sep = ",",comment.char = "#",check.names = F)
colnames(hg_u95a)
hg_u95a <- hg_u95a[,c("Probe Set ID","Gene Symbol","Entrez Gene","Ensembl")]
head(hg_u95a)
# 读取A v2平台
hg_u95av2 <- read.table("../annot/HG_U95Av2.na36.annot.csv",header = T,sep = ",",comment.char = "#",check.names = F)
colnames(hg_u95av2)
hg_u95av2 <- hg_u95av2[,c("Probe Set ID","Gene Symbol","Entrez Gene","Ensembl")]
head(hg_u95av2)</pre>
我们可以看到这两个平台就是一个升级版本的关系,他们的探针分别有12626(a)和12625个,交集是12600个。
library(VennDiagram)
data <- list(hg_u95a[,1],hg_u95av2[,1])
names(data) <- c("hg_u95a","hg_u95av2")
#设置颜色
col <- c("#0099CC","#FF6666")
venn.diagram(data,
filename="venn.png", #输出的图片名字
imagetype="png", #输出的图片类型
lwd=1, #圈线粗度
lty=1, #圈线类型
col=col, #圈线的颜色
fill=col, #填充圈的颜色
cat.col=col, #每个group名字的颜色
cat.cex = 1.6, #每个group名字的大小
rotation.degree = 0, #旋转角度
cex=1, #里面交集字的大小
alpha = 0.5, #透明度
reverse=TRUE,
width=4000, #图片的宽度
height = 4000, #图片的高度
resolution =600, #图片的分辨率
margin=0.2) #图片距离画布的边缘,一般如果画出的图片有显示不完全就可以设置这个
image-20200729003006645.png
我们再来看一下abcde五个平台注释到的gene symbol的关系:
#变成list对象,进行绘图
library(VennDiagram)
data <- list(hg_u95a[,2],hg_u95b[,2],hg_u95c[,2],hg_u95d[,2],hg_u95e[,2])
names(data) <- c("hg_u95a","hg_u95b","hg_u95c","hg_u95d","hg_u95e")
#设置颜色
col <- c("#0099CC","#FF6666","#FFCC99","#0099CC","red")
venn.diagram(data,
filename="venn.png", #输出的图片名字
imagetype="png", #输出的图片类型
lwd=1, #圈线粗度
lty=1, #圈线类型
col=col, #圈线的颜色
fill=col, #填充圈的颜色
cat.col=col, #每个group名字的颜色
cat.cex = 1.6, #每个group名字的大小
rotation.degree = 0, #旋转角度
cex=1, #里面交集字的大小
alpha = 0.5, #透明度
reverse=TRUE,
width=4000, #图片的宽度
height = 4000, #图片的高度
resolution =600, #图片的分辨率
margin=0.2) #图片距离画布的边缘,一般如果画出的图片有显示不完全就可以设置这个
也就是说这五个芯片不是重复的芯片,是6万多个探针分布在了五个芯片里面进行测序了。从探针ID的编号也是可以看出来的从1开始编号到6。
image-20200729003159710.png
芯片a系列:
image-20200729003419946.png芯片e系列:
image-20200729003457689.png最后总结:
应该就是这个HG-U95平台总共有6万多个探针,使用了五个芯片测序,可能由于当时技术的原因导致一张芯片的通量没有那么高,只能测12000左右的序列,这个芯片已经很老了。根据每个平台的探针编号是连着的也能推测出这个,比如探针ID是用1开头到6开头的编号。
五个芯片的数据合并即取并集起来做分析就可以了。