【函数学习】pandas.get_dummies

2020-02-15  本文已影响0人  风萧萧兮水易寒

one-hot encoding独热编码

对于离散变量,每一个取值只会使得一种状态处于“激活态”,也就是说这N种状态中只有一个状态位值为1


dummy encoding哑变量编码

    任意的将一个状态位去除

    
ps:1、Series里的整数会按照one-hot进行编码,但是在DataFrame里面不会

        2、特征的维度数量会有所增加

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False)[source]

参数

    data : array-like, Series, or DataFrame 输入的数据

    prefix : string, get_dummies转换后,列名的前缀,默认为None

    columns : 指定需要实现类别转换的列名 否则转换所有类别性的列

    dummy_na : bool, default False 增加一列表示空缺值,如果False就忽略空缺值

    drop_first : bool, default False 获得k中的k-1个类别值,去除第一个,防止出现多重共线性

参考与详细

    官方文档  https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html

    简       书  https://www.jianshu.com/p/5f8782bf15b1

    博       客  https://blog.csdn.net/maymay_/article/details/80198468

    博       客  https://blog.csdn.net/qq_43404784/article/details/89486442

感谢!

上一篇下一篇

猜你喜欢

热点阅读