GEO数据挖掘

2018-12-21日总结

2018-12-23  本文已影响33人  小梦游仙境

GEO数据挖掘看老大哔哩哔哩

看了三遍了,随着理解,后续还要更新这篇记录,现在还太不全,有些还没跟上,代码随着理解要往上填...

0.GEO数据挖掘视频课程之序言

使用R语言完成表达芯片处理全流程视频上线

http://www.bio-info-trainee.com/3146.html

R来完成表达芯片分析全流程

http://www.bio-info-trainee.com/2087.html

生信技能树论坛-研究热点板块介绍-芯片处理

http://www.bio-info-trainee.com/2919.html

老大github

1.通用文献阅读及规律

installation of necessary packages, downloading of cel files, describing the experiment, loading and normalizing data, quality controls, probe set filtering, finding differentially expressed probe sets, and finally annotating those probe sets to gene symbols.

转录本和基因有对应关系,一个基因可对应多个转录本(探针),原因有可变剪切:

可变剪切differential splicing,也叫做选择性剪切alternative splicing, 指的是在mRNA前体到成熟mRNA的过程当中,不同的剪切方式使得同一个基因可以产生多个不同的成熟mRNA, 最终产生不同的蛋白质,示意图如下

image

根据文章中给出的GSE号,去GEO网址,在链接后更改GSE号,获得表达矩阵,芯片数据一般都用LIMMA包,illuminaHI-seq测序芯片出现

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE84498

背景知识

p值<0.01,|log2FoldChange|>2找差异基因

2.了解GEO数据库

1.文献中的共性:找到数据集,下载数据,进行差异分析,GSEA及其他数据库的注释。

2.找到探针对应的基因名

3.每一个数据集(GSE)有很多sample(GSM)

芯片基础知识

http://www.biotrainee.com/thread-992-1-2.html

4.一个GSE可以有多高平台(GPL)

3.数据下载的3种方式

找到数据集后,数据下载方式(3种),目的得到表达矩阵

1.直接下载raw data,但不推荐大家用,原始数据

2.下载表达矩阵 series matrix file(s),下载后可读到R里面

a=read.table('GSE42872_series_matrix.txt.gz')
> class(a)
[1] "data.frame"
> str(gset)

3.在R里面读取GSE号.

gset <- getGEO("GSE42589")

加载GEO包

library(GEOquery)
gset <- getGEO('GSE42872',destdir=".",AnnotGPL = F,getGPL = F) #为了

getGEO读进来就是一个对象

文件只有两种:文本和非文本

分割分本:”空格“分割:read.tab

​ ”逗号“分割:read.csv

新版的affymetrix对应oligo包

illumina相关芯片对应lumiR.batch

4.ID转化技巧大全

class、str这样的函数多打,对象可以用str看一下

http://www.bio-info-trainee.com/1399.html

http://www.bio-info-trainee.com/3415.html

> str(gset)
List of 1# 是list
> gset[[1]]
library(hgu95av2.db)
ids=toTable(hgu95av2SYMBOL)
length(unique(ids$symbol))
tail(sort(table(ids$symbol)))
table(sort(table(ids$symbol)))
plot(table(sort(table(ids$symbol))))

5.了解你的表达矩阵

pData:得到每个样本的描述信息,下载的是对象就用pData来找

Group list:三个ctr,三个sample

6.差异分析

exprSet #表达矩阵
dim(exprSet)#查看多少个基因和样本
group_list #分组信息

7.火山图及热图制作及美化

gene=head(nrDEG,10000)

log2 fold change达到一定阈值才认为差异显著

火山图

plot(nrDEG$logFC,-log10(nrDEG$P.Value))

差异分析得到的结果注释一文就够

https://mp.weixin.qq.com/s/t0ZrkPX9yz6vaHouY33Ohg

看包的说明书

vignette('clusterProfiler')

8.KEGG-GO等数据库的注释及GSEA分析

9.收尾的几点建议

10.批量生存分析代码大放送

生信人的20个R语言习题http://www.bio-info-trainee.com/3409.html

生信人的20个R语言习题答案http://www.bio-info-trainee.com/3415.html

上一篇下一篇

猜你喜欢

热点阅读