芯片数据分析rna_seq

计算生物学课程复习之——芯片表达谱分析

2020-11-05  本文已影响0人  嗒嘀嗒嗒嘀嗒嘀嘀

上华中农业大学##谢为博##老师的计算生物学课程的个人复习总结

典型的芯片实验的全过程

提取RNA → 反转录 (→ 扩增) → 标记 → 杂交 → 扫描 → 获得原始数据

单色芯片的物理结构

基因芯片的局限性和优点

芯片数据前处理的步骤

数据过滤(Filtering)
背景纠正(Background correction)
均一化(Normalization)
总结(Summarization)
补缺失值(Imputation)
批次效应(Batch effects)

背景纠正

假设PM数据是背景和信号的组合
-PM =信号+背景
通过假设信号严格为正分布(positively distribution),校正后的信号也为正分布。
对每个阵列分别进行背景校正。
参考文章 https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.94.5001&rep=rep1&type=pdf

MA Plot

DNA微阵列数据(Microarray)通常在阵列内进行标准化,以控制染料偶联和杂交效率方面的系统性偏差,以及DNA探针和用于定位阵列的打印头中的其他技术偏差。通过最小化这些系统差异,可以发现真正的生物学差异。为了确定是否需要归一化,可以绘制芯片数据中信号值x和y的图,并查看直线的斜率是否在1左右。一种改进的方法(MA plot),一般先对它们进行log2处理,再进行Minus(log2{Y}-log2{x}=log2(y/x))和Add((log2{x}+log2{y})/2)做MA plot

MA plot计算横纵坐标计算

参考文章 https://www.jianshu.com/p/cdfac0bfb733

LOESS/LOWESS (locally weighted scatterplot smoothing)

在数据标准化中,有时候,偏差是一条没有明显参数形式的曲线(它不是直线,抛物线或正弦函数等),所以我们希望将曲线拟合到数据中。局部加权回归(LOESS)提供了一种方法。对于数据集中的每个点,定义的区域都被认为足够小,可以假定该区域中的一条直线近似于曲线,且一条直线具有加权最小二乘方。权重取决于到兴趣点的距离。在不同的强度水平上有效地应用不同的缩放因子,化曲为直。

参考文章 http://genomicsclass.github.io/book/pages/normalization.html

Quantile Normalization 标准化方法之一

  1. 根据列排序;
  2. 计算每行的平均数;
  3. 按照原来列的排序重新排列。


    Quantile Normalization

总结(Summarization)

Median Polish 中位数平滑法

作用:合并探针集中探针的强度值,以获得每个基因的单个强度值。


探针强度水平计算式 迭代后的矩阵An

Fourth, 用初始矩阵A中的每个值减去迭代后矩阵An的每个值(即矩阵相减), 得到矩阵B, 之后,每行求平均值。

第四步,A-An=B

Tukey Biweight Estimate(MAS5 (Affymetrix MicroArray Suite)用到的方法)

通过比较PM探针和MM探针,每张芯片单独获取值


Tukey Biweight方法获取平均值

CTj是从MMj得出的量,永远不大于PMj。

根据距中值的距离对每个探针强度进行加权。
平均值在全局稳定(不受任何假设的微小变化影响)。
Tukey Biweight中,远离估计中心的数据权重降低,如此用可靠的统计数据抵抗异常值。

dChip

多个芯片同时获取值
此方法构建出的基因共表达网络假阳性更低


Method Comparision of Spike-in, 感觉spiked genes就是差异显著的基因

差异表达基因鉴定方法

Naive method: 倍数

即两者均值比,不能得到可信的差异表达基因

T-test

Wilcoxon Rank Sum Test

Modified t-test

当样本量小时,解决此问题的方法有SAM,用的是多重T检验

SAM

LIMMA

Permutation

多重假设检验

Family-wise error rate (FWER)

Bonferroni校正:为了将测试m个假设的家庭错误率控制在α水平,我们需要将每个测试的错误拒绝率控制在α/ m
如果α为0.05,则对于20K基因预测,p值截止值为0.05 / 20K = 2.5E-6
差异表达基因选择过于保守

False discovery rate (FDR)

FDR:假发现率,更客观
FWER和FDR表示一种概念或一种方法,FWER定义为多重假设检验中发现至少一个I类错误的概率,FDR定义为多重假设检验中错误发现占所有发现的比例。另外,对应地,还存在FWER校正方法和FDR校正方法(也称为控制方法)。两类校正方法都是用来控制多重假设检验中犯I类错误的概率,使其低于显著性水平 α \alpha α。FWER校正有多种实现,其中最经典的是Bonferroni correction;FDR校正也有多种实现,其中最经典的就是Benjamini–Hochberg procedure。

FWER和FDR校正都可以使多重假设检验整体犯I类错误的概率低于预先设定的显著性水平 α \alpha α。FWER显得较为保守,它主要是依靠减少假阳性的个数,同时也会减少TDR(true discovery rate)。而FDR方法是一种更加新颖靠谱的方法,它会对每个测试用例使用校正后的 p p p值( q q q值),达到了更好的效果:在检验出尽可能多的阳性结果的同时将错误发现率控制在可以接受的范围。

False positive rate

FPR:假阳性率,与样本关系大

Gene Ontology

基因本体论
一系列标准的分类,层级结构,方便功能分类—— 分子功能,生物过程,细胞组分

上一篇下一篇

猜你喜欢

热点阅读