数据库字段 转化为 特征
2020-01-03 本文已影响0人
HaigLee
作者:HaigLee
https://www.jianshu.com/u/67ec21fb270d
本文由 HaigLee 发布。未经许可,禁止转载。
把数据库字段转化为特征,需要一个字段一个字段的转化,具体方法如下:
- 独热编码(One-Hot 编码):表格中的“物品ID”和“类别”两个字段的取值可能是枚举值,每个字段下,某个物品只会取枚举值的其中的一个值。例如:“类别”有三种取值,可以用三个二进制编码,即001,010,100, 每个字段取值激活其中一位二进制,这里规定3个编码分别对应,衣服、鞋、箱包。
- 特征分段:发布时间可以被处理成为多个特征,比如是否是周末、是否是五一、是否是节假日等。每一个“是否是”都可以变换成一个布尔取值特征。连续值也常常被分段,常用的分段方法有等宽分段,等密度分段等。比如热度值可以被分段成(0,50],(50,100],(100,150],(150,200],(200,250],(250,300],(300,350],(350,+∞]。每个分段区间对应一个0~1取值的特征,落入该区间的特征取值为1,否则取值为0。
- 特征变换:把连续值变换到一个有限值域内,这也很常见,比如连续值常常要被变换到0~1之间,或者是离散化。
作者:HaigLee
https://www.jianshu.com/u/67ec21fb270d
本文由 HaigLee 发布。未经许可,禁止转载。