机器学习day1

2020-05-27  本文已影响0人  rivrui

数据归一化

为了消除数据之间量纲的影响
<script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script>

X是原始数据,X_{max}是数据最大值,X_{min}是数据最小值。

类别特征

类别型特征,如性别(男女),血型(A,B,AB,O)。类别型特征通常数字符串的形式,除了决策树等少数模型支持字符串的输入,对于逻辑回归,支持向量机等,我们需要将其转成数值特征才行。

还有一些编码,Helmert Contrast,Sum Contrast,Polynomial Contrast,Backward Difference Contrast

高维组合特征的处理

为了提高复杂关系的拟合能力,把一阶离散特征两两组合,构成高阶特征。
举例,

是否点击 语言 类型
0 中文 电影
1 英文 电影
1 中文 电视剧
0 英文 电视剧

进行特征组合

是否点击 语言=中文,类型=电影 语言=英文,类型=电影 语言=中文,类型=电视剧 语言=英文,类型=电视剧
0 1 0 0 0
1 0 1 0 0
1 0 0 1 0
0 0 0 0 1

若是逻辑回归,数据的特征向量为X=(x_{1},x_{2},...,x_{k}),则有
Y=sigmoid(\sum_{i}\sum_{j}w_{ij}<x_{i},x_{j}>)
<x_{i},x_{j}>就表示的是x_{i}x_{j}的组合特征。w_{ij}的维度等于|x_{i}|.|x_{i}|
当然,如果数据维度为m,n时组合,那么规模就是m×n,当m,n的值过大之时,就需要用k维的低维向量表示(k\ll m,k\ll n)

上一篇 下一篇

猜你喜欢

热点阅读