数据挖掘与分析基础概念

2019-06-26  本文已影响0人  噗嗤噗哩噗通

前言:
工作中发现工程化的时候越多,对一些指标的概念越模糊,所以写一篇大纲,主要是为了把学习,运用过的知识体系化。(临时抱佛脚用)


1. 特征工程:

大体框架主要分为:

特征变化情况分析


模型优化

1. 调整参数:

python:hyperopt和pymongo
speatmint(高斯迭代)
smac(随机森林回归)

2. 图像处理:

seaborn,pyecharts

2. 交叉检验

5折交叉检验,主要是判断模型稳定性。

3. 异常检测

用户多久登录一次,访问过的页面,在论坛发布的帖子数量,甚至是打字速度等。尝试根据这些特征构建一个模型,可以用这个模型来识别那些不符合该模式的用户

集成学习

adaboost

batch-boost

上一篇下一篇

猜你喜欢

热点阅读