数据挖掘0311

2021-03-11  本文已影响0人  五官端正123

所有资料来源于生信技能树

image.png

#1. 热图

image.png

上调基因和下调基因是针对处理组而言。
下调基因-处理组比对照组表达量低的基因

2.散点图和箱线图

散点图和箱线图

散点图——强调个体之间的关系
箱线图——强化组与组之间的关系

image.png 理解箱线图的离群值

箱线图越短说明数据越集中
越长说明数据越离散

箱线图和点图适用于差异基因少的情况下使用。

3.火山图

image.png FC和logFC
image.png

logFC是以2为底数,


image.png

logFC一般取1,1.2,1.5,1.75

4.主成分分析

image.png
image.png

点点代表样本,
点和点的距离代表两个样本的差异大小
大的点代表分组在坐标系中的中心位置,不代表样本
坐标系中dim和括号中的数据没有意义,不代表啥

典型PCA

左上图:组间差别大于组内差别。(为什么?)
左下图:
右侧图:组间差别小于组内差别
生信技能树公众号上“一文看懂主成分分析”

还是有点懵~~~~~~~

1.表达数据的实验设计

image.png

2.数据库介绍

GEO
GEO组织层次 GSM/GSE/GPL image.png 基因表达芯片

探针是一组短的核苷酸序列,能与目的基因的一段序列杂交。

3.表达矩阵

表达矩阵的行名就是探针ID
列名是样本编号

image.png
要做的工作时把探针ID转换为Gene Symbol
把GSM样本分组
image.png

3.差异分析

image.png image.png
探针注释 自主注释 差异分析的可视化

差异分析的可视化就是火山图和热图

数据挖掘的本质就是缩小基因的范围~Jimmy
谁能从你邋遢的外表看到你美丽的内心呢?~花花
有本书叫《JYXPXXX》,经我坚定没啥用。
数量太少,你引用个毛线球?

上一篇 下一篇

猜你喜欢

热点阅读