2019-03-10记忆学习:一个case

2019-03-10  本文已影响0人  fulihao

记忆学习整体流程

都是基于特征集的,不关于预测集

描述性统计及相关性分析

  1. 缺失值info()查看空值/类型
    drop NA
    但是缺失也是信息
    缺失值的填补:例如中值,条件样本均值,联合分布……
  2. describe()
  3. 相关性分析
  4. 数据可视化
    (1)for循环
    (2)apply/.map apply一般对行或者一列进行输入,map是对每一个格进行操作
    train['age'].map(str)

特征工程

CV交叉验证:训练集,测试集。K-fold
5-折:把训练集划分为5份,用1-4训练,预测5,和真实比较,用2-5训练预测1……做5次,评估模型的精度
模型的泛化能力:通过学习更好地预测不知道的东西

模型融合

单模→融合→复模

不平衡问题

99个人是好人,一个罪犯
分类器更倾向于它是一个好人,但是目标是检索出坏人
处理方式:过采样,欠采样(取多组,bagging)
enbalanced:smoote

上一篇 下一篇

猜你喜欢

热点阅读