生物信息学数据挖掘学习笔记
2021-01-07 本文已影响0人
jiarf
教程https://www.bilibili.com/video/BV1JE411g7pr




芯片质量分析图

所有样本的基线处于一个0的水平线上
RNA降解图,这样的图就表明芯片质量很好


每个圆圈大小不一样:大:更多差异基因富集在这个上,颜色越深,表明更大程度的富集

差异基因上下游之间关系

共表达,,不同颜色代表一个模块,,找到所感兴趣的模块,与临床信息做比对,确定哪一个模块
如何利用GEO数据库对芯片简单分析



10个样本做基因芯片,叫系列series,用什么手段检测样本的基因表达量,就是平台,

确定数据类型:基因芯片、甲基化、等等







要把这些差异基因下载下来的话要复制粘贴就可以了,但有些没有基因名字,这些基因删掉就可以了

把基因芯片检测到的所有基因都做成一个表格,包含有差异和无差异的

要保存,,复制粘贴跟前面不一样‘

打开excel,粘贴,这时所有数据都搞在第一列,这时需要分开放在不同的列里面
选中第一列------数据---分列--固定宽度


没有分开的单击一下就行了,下一步完成既可以了,去除分号,替换成空格
数据的中位数在同一个水平线上
制作热图,

GEO在线工具制作热图
只有有热图的项目才可以做热图
芯片质量评估、R

左上灰色分布图,,,灰色均一,
2 白色灰色权重较高,权重随机分布,分布均匀
3.残差点:点随机分布,,绿红蓝点随机分布,质量可以过关

1.做RLE比较简单

都要在0
2.做NUSE


中心处于一致水平接近于1

5端开始降解,若斜率很低和很高,,降解多,芯片质量有问题
r分析



残差图、权重图


RLE

NUSE

RNA降解图

数据下载和预处理
GEO数据库里真正下载的是三个文件,平台文件、SERIES MATRIX FILE、RAW.tar

平台的话点进去,拉到最下面

点击如图,如果download不一定有的话,,点下面那个ANNOTATION SOFT table也可以的