数据分析学习笔记(3)——利用Excel进行数据分析
本章主要讲述对上一章中爬取的数据通过Excel进行数据清洗和分析。
数据分析的基本步骤为:提出问题->理解数据->数据清洗->构建模型->数据可视化。
1. 提出问题
本次数据分析主要要分析的问题为:
1.1 上海数据分析师招聘对于学历的要求。
1.2 上海数据分析师招聘对于工作年限的要求。
1.3 上海数据分析师工作年限与薪资间的关系。
1.4 上海数据分析师招聘公司规模分布。
1.5 上海数据分析师地区分布。
2. 理解数据
本次爬取得数据共有14个字段。

3. 数据清洗
数据清洗的主要步骤为:选择子集->列名重命名->删除重复值->缺失值处理->一致化处理->数据排序->异常值处理。
3.1 选择子集
根据提出的问题,本次分析主要要用到的有positionId,education,workYear, salary, financeStage, companySize以及district。因此,可以先将整个原始数据复制一份到一个新的表格中,对新表格开始进行数据清洗。首先将不需要的列删除或者隐藏。

3.2 删除重复项
由于列名已经设置好,因此跳过列名重命名这一项,直接进行重复项删除,因为每个岗位都有一个独自的positionId,所以要进行重复项删除的时候,可以以positionId为主键进行去重操作。

选择数据选项卡,选择删除重复值,选择positionId列,进行删除。

3.3 缺失值处理
经过查看后,没有发现有列存在缺失值,因此这步也可以跳过,如果存在缺失值,则有一下三种方式进行缺失值填充:1)通过人工手动补全。2)删除缺失数据。3)用统计值进行代替,如平均数,众数,中位数。4)用统计模型或机器学习算法计算出值进行填充。
3.4 一致化处理
对于salary列,需要用到数字进行排序,而且取值范围过多,因此决定取平均值作为一个新的列,要对其进行取数操作。首先是取出最低薪资,然后取出最高薪资,并求平均值。


随后利用筛选功能发现有报错。

选择报错项查看问题所在。

发现报错是因为大写的K无法用FIND找到,因此这里利用查找替换功能把大写的K全部换成小写的k。

然后再对最大薪资进行检查。

筛选后发现是由于其中包含了文字。

因此直接把最小值赋给最大值作为参考。在处理完后,如果直接用最大值和最小值求平均会得到以下结果。

这是由于bottom和top的数据类型并不是数字,而是从字符串中截取的字符串类型,所以要先把这个数据复制下来并进行分列处理,转成数字。

复制后再用分列处理将值变为数字类型。

随后利用数字类型求出平均值,然后隐藏不需要的列即可。

4. 构建模型和数据可视化
数据清洗完成后,开始进行模型构建,这里主要用到的是数据透视表来进行关系建模。
根据提出的问题进行模型构建:
4.1 上海数据分析师招聘对于学历的要求。

通过数据透视表制图后得出,上海对于数据分析师的学历要求大部分都处于本科学历,其岗位数值为1930个,占总岗位数的80.52%。因此上海数据分析师岗位对于学历的要求不算特别的高,相对而言不是特别的看重学历。
4.2 上海数据分析师招聘对于工作年限的要求。

通过数据透视表制图得出,上海的数据分析师岗位对于3-5年工作经验的需求最高,其次是1-3年的工作经验,因此可以看出,大部分的数据分析师的岗位,对于工作经验,都有一定的要求,因此相比学历,上海的数据分析师岗位更加看重工作经验的积累。这一点可能是作为入行的最大难点。
4.3 上海数据分析师工作年限与薪资间的关系。

根据上图可以看出,上海数据分析师,应届毕业生的平均薪资为9.1k,作为起薪对比各个行业中都属于相对较高的了。而在有了一定的工作经验之后,薪资可以达到月薪15k的水平,其中1年以下工作经验和1-3年工作经验的平均薪资上差不多,因此从刚开始工作到拥有3年工作经验的期间,薪资主要集中在15k上下,在达到3年工作经验以后,又会有一个增长,3-5年平均薪资将会达到23k,在5-10年的工作经验区间内,薪资提升到了31k,超过10年工作经验后薪资则会大幅提升,平均薪资为53k。以上薪资均为月薪的平均值。因此可以看出,上海的数据分析师,无论是入行起薪,还是未来的职业发展,薪资增长,对比各行业都是非常不错的。
4.4 上海数据分析师招聘公司规模分布。

根据上图,可以看出,在上海,公司人数越多,规模越大,对数据分析师的岗位需求越大,其中2000人以上的公司中,上市公司对数据分析师的岗位需求最大,其次是D轮以上公司,因此可见,随着公司规模的不断扩张,数据分析师的重要性也会越来越高,公司越大,越需要对数据进行分析从而给公司方向性的指导。在500-2000人及150-500人的中大型公司中,则是主要以不需要融资的公司为主。但总体分布而言,公司人数和规模越大,公司对数据分析师的岗位需求也会越强。
4.5 上海数据分析师地区分布。

根据上图统计,在上海,浦东新区对于数据分析师的岗位需求最多,其中有775个岗位,占到总数的32%左右,大约有三分之一的岗位需求在浦东新区。原因可能有以下几个:1)浦东新区有陆家嘴,其中集中着大量的金融公司,金融公司对于数据分析师有大量需求。2)浦东新区有许多的互联网公司,尤其是张江高科园区内,有着大量的互联网公司,而互联网公司对于数据分析师有着较大的需求。除了浦东新区,包括徐汇区,长宁区,杨浦区内环区,均有大量的工作岗位,其原因可能是因为在市区有着更多的大型公司,而大型公司对于数据分析师的需求更高。
5. 结论与建议
综上,数据分析师对于学历的要求属于相对基本,不是决定性因素,而对于工作经验则相对看重。数据分析师的起薪非常不错,未来的职业发展和薪资增长也非常有前景。数据分析师去到大型企业或者公司的机会会更大,因为大型企业或公司对于数据分析师的需求更高,同时在上海工作,去到市中心或者浦东工作的概率会更大
本章结束,下一章会列出一些SQL的练习和答案。