数据挖掘与分析基础概念
2019-06-26 本文已影响0人
噗嗤噗哩噗通
前言:
工作中发现工程化的时候越多,对一些指标的概念越模糊,所以写一篇大纲,主要是为了把学习,运用过的知识体系化。(临时抱佛脚用)
1. 特征工程:
大体框架主要分为:
- 特征构造:这里可以增加业务逻辑叠加,也可以借用多层神经网络达到特征组合的效果。
- 特征效果验证(有值率)
- 特征类型分析
- 缺失值补充:按照高斯分布或者其他分布补充数据,knn数据填充。
- 单因素方差分析
- 多元正态检验
特征变化情况分析
- 平均绝对误差
- 均方差
- 标准化平均绝对方差
模型优化
1. 调整参数:
python:hyperopt和pymongo
speatmint(高斯迭代)
smac(随机森林回归)
- 网格搜索
- 随机搜索
- 贝叶斯优化
2. 图像处理:
seaborn,pyecharts
2. 交叉检验
5折交叉检验,主要是判断模型稳定性。
3. 异常检测
用户多久登录一次,访问过的页面,在论坛发布的帖子数量,甚至是打字速度等。尝试根据这些特征构建一个模型,可以用这个模型来识别那些不符合该模式的用户
集成学习
- 用于减少方差的bagging:重采样方法,结果聚合阶段(分类采用投票模式,回归采用均值模式):并行
- 用于减少偏差的boosting:boosting和bagging的区别在于是对加权后的数据利用弱分类器依次进行训练。AdaBoost(串型)
- 用于提升预测结果的stacking:前一个模型的输入作为后一个模型的输出
adaboost
batch-boost