数据挖掘练习——电信客户流失预警项目
2020-07-05 本文已影响0人
ln_ivy
一、主题:
客户流失问题是电信运营面临的一项重要的项目,根据经验,开发新的客户源比保留既有客户的开销大的多(uaually存在5-20倍的差距)。因此,如何根据历史数据保留住原有客户是一件非常重要的事情。
二、一般数据分析,挖掘基本步骤:
1、用pandas导入数据,查看数据的基本情况
2、探索性数据分析(EDA):单变量可视化;双变量的关系;多变量的关系
3、特征工程
特征筛选:
将一些object类型改成数值类型;
增加或者删除一些列
特征工程:
通过Scale去量纲的影响
4、应用机器学习算法(分类,回归,聚类等):此例子中以分类为例子,根据历史数据,由机器学习算法去预测某客户是否会流失。
5、模型调参、提升模型
三、下面是关于本次挖掘项目——客户流失预警
环境:Jupyter Notebook
![](https://img.haomeiwen.com/i16461660/d86cdbc0ed63689a.png)
![](https://img.haomeiwen.com/i16461660/61d3421474426d75.png)
![](https://img.haomeiwen.com/i16461660/d28b4388b21738d0.png)
![](https://img.haomeiwen.com/i16461660/4f1097092f670906.png)
![](https://img.haomeiwen.com/i16461660/e69397fc64a6d423.png)
![](https://img.haomeiwen.com/i16461660/dcc1ffc91efacc11.png)
![](https://img.haomeiwen.com/i16461660/b1b47bc66d0016a0.png)
![](https://img.haomeiwen.com/i16461660/4b2ac8b1cefe38de.png)
![](https://img.haomeiwen.com/i16461660/f2b41bf1fce430ba.png)
用热力图看前10个相关度最高的特征:
![](https://img.haomeiwen.com/i16461660/e3bab8134b443eda.png)
查看此三列关系
![](https://img.haomeiwen.com/i16461660/e7c18c042a0b4b8d.png)
![](https://img.haomeiwen.com/i16461660/f2b0ec463071934b.png)
![](https://img.haomeiwen.com/i16461660/a01c4d7e0754c218.png)
![](https://img.haomeiwen.com/i16461660/7fbb91d43a5779ed.png)
合并列
![](https://img.haomeiwen.com/i16461660/b93f8b5064c96d33.png)
删除没必要的列
![](https://img.haomeiwen.com/i16461660/7a7a3e7c382e45ec.png)
![](https://img.haomeiwen.com/i16461660/429f67e843a9f14f.png)
用10+种模型建模:
![](https://img.haomeiwen.com/i16461660/ef98d22197797f95.png)
![](https://img.haomeiwen.com/i16461660/dbcc672e8dd1c4a1.png)
![](https://img.haomeiwen.com/i16461660/89e34e93769be037.png)
写在最后:很开心自己磕磕绊绊快一年了,还是始终在坚持学习自己喜欢的东西,今天这个小案例的输出,为了总结反馈自己这么久以来的学习成果。也希望将机器学习的预测应用到实际的项目中去。
不足:由于时间准备得比较仓促,有很多细节没有详细说明,请见谅~ 多多指教!