HG-U95注释平台系列

2020-07-29 本文已影响0人信你个鬼

作者：jzhang
前几天收到一个网有挺有意思的题问，如下：

image-20200728235015903.png

出于好奇，我对这个GPL91，92，93，94，95平台进行了查看。根据上面提供的GSE编号，我找到了这个数据集合，确实是HG-U95。

image-20200729000956419.png

平台信息文件：

image-20200729002022940.png

然后看到了官网介绍：

The Human Genome U95 (HG-U95) Set, consisting of five GeneChip arrays, contains almost 63,000 probe sets interrogating approximately 54,000 clusters derived from the UniGene database (Build 95)。

意思是这个平台总共有63000个探针，使用了5个芯片。随后我去affy官网下载了这六个芯片平台的注释文件。http://www.affymetrix.com/support/technical/byproduct.affx?product=hgu95
下载了这最新版的六个文件：

image-20200729002345487.png

使用R语言进行探索

rm(list=ls())
options(stringsAsFactors = F)

# 读取A平台
hg_u95a <- read.table("../annot/HG_U95A.na36.annot.csv",header = T,sep = ",",comment.char = "#",check.names = F)
colnames(hg_u95a)
hg_u95a <- hg_u95a[,c("Probe Set ID","Gene Symbol","Entrez Gene","Ensembl")]
head(hg_u95a)

# 读取A v2平台
hg_u95av2 <- read.table("../annot/HG_U95Av2.na36.annot.csv",header = T,sep = ",",comment.char = "#",check.names = F)
colnames(hg_u95av2)
hg_u95av2 <- hg_u95av2[,c("Probe Set ID","Gene Symbol","Entrez Gene","Ensembl")]
head(hg_u95av2)</pre>

我们可以看到这两个平台就是一个升级版本的关系，他们的探针分别有12626（a）和12625个，交集是12600个。

library(VennDiagram)
data <- list(hg_u95a[,1],hg_u95av2[,1])
names(data) <- c("hg_u95a","hg_u95av2")

#设置颜色
col <- c("#0099CC","#FF6666")

venn.diagram(data,
 filename="venn.png", #输出的图片名字
 imagetype="png",     #输出的图片类型
 lwd=1,               #圈线粗度
 lty=1,               #圈线类型
 col=col,             #圈线的颜色
 fill=col,            #填充圈的颜色
 cat.col=col,         #每个group名字的颜色
 cat.cex = 1.6,       #每个group名字的大小
 rotation.degree = 0, #旋转角度
 cex=1,             #里面交集字的大小
 alpha = 0.5,         #透明度 
 reverse=TRUE,
 width=4000,          #图片的宽度
 height = 4000,       #图片的高度
 resolution =600,     #图片的分辨率
 margin=0.2)          #图片距离画布的边缘，一般如果画出的图片有显示不完全就可以设置这个

image-20200729003006645.png

我们再来看一下abcde五个平台注释到的gene symbol的关系：

#变成list对象，进行绘图
library(VennDiagram)
data <- list(hg_u95a[,2],hg_u95b[,2],hg_u95c[,2],hg_u95d[,2],hg_u95e[,2])

names(data) <- c("hg_u95a","hg_u95b","hg_u95c","hg_u95d","hg_u95e")

#设置颜色
col <- c("#0099CC","#FF6666","#FFCC99","#0099CC","red")

venn.diagram(data,
 filename="venn.png", #输出的图片名字
 imagetype="png",     #输出的图片类型
 lwd=1,               #圈线粗度
 lty=1,               #圈线类型
 col=col,             #圈线的颜色
 fill=col,            #填充圈的颜色
 cat.col=col,         #每个group名字的颜色
 cat.cex = 1.6,       #每个group名字的大小
 rotation.degree = 0, #旋转角度
 cex=1,             #里面交集字的大小
 alpha = 0.5,         #透明度 
 reverse=TRUE,
 width=4000,          #图片的宽度
 height = 4000,       #图片的高度
 resolution =600,     #图片的分辨率
 margin=0.2)          #图片距离画布的边缘，一般如果画出的图片有显示不完全就可以设置这个

也就是说这五个芯片不是重复的芯片，是6万多个探针分布在了五个芯片里面进行测序了。从探针ID的编号也是可以看出来的从1开始编号到6。

image-20200729003159710.png

芯片a系列：

image-20200729003419946.png

芯片e系列：

image-20200729003457689.png

最后总结：

应该就是这个HG-U95平台总共有6万多个探针，使用了五个芯片测序，可能由于当时技术的原因导致一张芯片的通量没有那么高，只能测12000左右的序列，这个芯片已经很老了。根据每个平台的探针编号是连着的也能推测出这个，比如探针ID是用1开头到6开头的编号。

五个芯片的数据合并即取并集起来做分析就可以了。

HG-U95注释平台系列

猜你喜欢

热点阅读