数据清洗

2019-01-30  本文已影响0人  权氏小龙虾

数据清洗是指对提供的原始数据进行一定的加工,使得其方便后续的特征抽取。其与特征抽取的界限有时也没有那么明确。常用的数据清洗一般包括:

◆ 数据的拼接

◇ 提供的数据散落在多个文件,需要根据相应的键值进行数据的拼接。

◆ 特征缺失值的处理

◇ 特征值为连续值:按不同的分布类型对缺失值进行补全:偏正态分布,使用均值代替,可以保持数据的均值;偏长尾分布,使用中值代替,避免受 outlier 的影响;

◇ 特征值为离散值:使用众数代替。

◆ 文本数据的清洗

◇ 在比赛当中,如果数据包含文本,往往需要进行大量的数据清洗工作。如去除HTML 标签,分词,拼写纠正, 同义词替换,去除停词,抽词干,数字和单位格式统一等。


数据分析

处理的数据是交易数据  eg: 用户订单    用户存取款    用户的通话短信

使用的少量数据

采样分析  数据量过大可采用采样分析

机器学习

处理的数据是行为数据    eg: 搜索历史  点击历史  浏览历史  评论

使用的海量数据 

数据分析是对历史的回顾

eg:  过去3年,前100名优质客户    和年初计划相比,上个季度销售额如何。。。。

机器学习是对未来的预测


上一篇下一篇

猜你喜欢

热点阅读