蛋白质组学蛋白质组宏蛋白质组

蛋白质组学数据的缺失值填充

2020-07-18  本文已影响0人  生物信息与育种

缺失值填充在数据分析领域的预处理过程绕不过去的一个坎,蛋白质组学也不例外,简单记录下,可能有些地方有其特殊之处。

impute::impute.knn(data, #矩阵
  k=10,  #预设近邻数,默认10
  rowmax=0.5, #当某行的缺失值占比超过50%,则用整个样本的均值填充
  colmax=0.8) #当任何一列中缺失值占比80%,计算终止并报错
SeqKnn::SeqKNN(data, k=10)
data(sleep,package="VIM")
# 1st
imp=mice::mice(sleep,
    m=5, #生成完整数据集个数
    defaultMethod="pmm", #填充方法
    seed=1234) #保证重复性
# 2nd
fit=with(imp,lm(dream~span+Gest)) #选择线性模型对填充数据集分析
# 3rd
pooled=pool(fit) #整合最终结果
summary(pooled)

Ref:https://mp.weixin.qq.com/s?__biz=MzI3MTM3OTExNQ==&mid=2247484057&idx=1&sn=0a3fa0da1dde77f0e977cb3fcb573a66&chksm=eac3fd5dddb4744b440845fb75d994cbd0c773e8280cd907c2f72da77515c39fdeae544ce312&mpshare=1&scene=1&srcid=1209Hxtx8mNCCaedk40oGF3j&pass_ticket=8fOmiD4N2xGG%2Fiu8B8fMK8DktTDRegr9wAx9HJzsHskRUH2qZsWItq9%2FfUMxDKlS#rd#userconsent#

上一篇下一篇

猜你喜欢

热点阅读