生物信息学从零开始学R. python新手日记R语言从零开始

一文解决筛选低变化的基因/变量(R语言)

2019-10-09  本文已影响0人  柳叶刀与小鼠标

(1)在日常生信分析中,经常遇到的问题是需要在做差异分析或者生存分析或者相关分析、WGCNA等等分析时,经常一个卡住许多分析者的步骤是基因或者变量太多,导致分析速度太慢或者无法分析。所以这一次的笔记是提供一个初筛的过程,在做其他的生信相关分析以前,筛选掉一些几乎在样本中没有变化或者变化较低的基因或者变量,从而大大的缩减生信分析所需的时间或者资源。
(2)在大规模生信分析时,当基因数目很大时,对每一个基因进行单因素分析比较慢,所以一个比较能够节省资源的做法是,将原先为数值类型的表达矩阵转化为‘low’,‘high’样式的表达矩阵。这样的优势为:第一可以大大的节省生信分析所需的资源或者时间,对笔记本要求比较低。第二这样做出来的生存分析与KM生存曲线是相对应的,这样不会遇到某些基因在连续型变量的单因素分析与KM生存曲线法生存分析所得到的的P值存在典型差异。


上一篇下一篇

猜你喜欢

热点阅读