生信入门参考资料数据库及工具方法学生信学习

对CCLE数据库可以做的分析

2018-01-17  本文已影响373人  因地制宜的生信达人

收集了那么多的癌症细胞系的表达数据, 拷贝数变异数据,突变数据,总不能放着让它发霉吧!

这些数据可以利用的地方非常多,但是在谷歌里面搜索引用了它的文章却不多,我挑了其中几个,解读了一下别人是如何利用这个数据的,当然,主要是用那个mRNA的表达数据咯!

第一篇:

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0111146

这篇文献对CCLE的数据进行了八个步骤的处理,一个合格的生物信息学分析着完全可以重写这个过程

前三步是为了得到27个胃癌相关细胞系的 mRNA表达矩阵,方法是下载cel文件,用RMA归一化,对多探针基因去最大表达量探针!

这里既用来gene set的富集分析,又用来超几何分布的富集分析,结果去看看这篇文章就知道了!

第二篇:

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0081803#pone.0081803.s001

这篇文章只用了CCLE的一个地方,就是看看不同cancer type里面的某个 基因表达boxplot

这个图的数据用 GEOquery 可以得到,样本的分类信息也用GEOquery可以得到,这样就可以做下面这个图了,非常简单

Further, the Cancer Cell Line Encyclopedia (CCLE) database demonstrated that of 1062 cell lines representing 37 distinct cancer types, glioma cell lines express the highest levels of STK17A

1

第三篇:

http://www.nature.com/ncomms/2013/130709/ncomms3126/fig_tab/ncomms3126_F4.html

这篇文献更简单了,直接对这个表达矩阵进行 聚类:

Evaluating cell lines as tumour models by comparison of genomic profiles

2

就直接拿整个表达矩阵即可,然后挑选变异最大的5000个基因来进行聚类,就可以得到类似的图。

上一篇下一篇

猜你喜欢

热点阅读