立刻学习

数据挖掘20210114学习笔记

2021-03-04  本文已影响0人  爱吃甜品的鱼

GEO数据挖掘

图表介绍

1.热图

·输入数据是数值型矩阵\数据框
·颜色的变化表示熟知的大小

2.散点图和箱线图

箱线图:输入数据是一个数值型向量和一个字符串向量(重复值)
箱线图是单个基因在两组之间的表达量差异

3.火山图

Foldchange(FC):处理组平均值/对照组平均值
logFoldchange(logFC):Foldchange取log2
logFC>0,treat>control,基因表达量上升;
logFC<0,treat<control,基因表达量下降。
通常说的上调、下调基因是指表达量显著上升 / 下降的基因,结合P值。
P值越小,越有统计学差异,-log10(Pvalue)越大

4.主成分分析

主成分分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分)。
根据这些主成分对样本进行聚类,代表样本的点在坐标轴上距离越远,说明样本差异越大。

GEO背景知识

表达数据实验设计

实验目的:通过基因表达量数据的差异分析和富集分析来解释生物学现象
GSM:用户提交给GEO的样本数据
GSE:一个完整的研究,并提供了整个研究的描述,包括对数据的描述,总结分析。
GPL:用户测序使用的芯片/平台。

基因表达芯片

探针的表达量反应基因的表达量

图片.png
limma包用于表达芯片数据差异分析
转录组数据差异分析三大R包:limma(voom)、edgeR、Deseq2
探针注释来源:
1.Biocoductor的注释包
2.GPL的soft文件解析
3.官网下载对应产品的注释表格
4.自主注释
上一篇 下一篇

猜你喜欢

热点阅读