第四周学习
2020-10-04 本文已影响0人
小木木小林
一、今周课程内容
开始流程:导入相关模块,连接数据库,读取数据;
观察字段,分类型{df.head()看大概的数据},观察数据是否需要。提取需要的字段对相应数据进行清洗;
df.info()来看字段的数据类型,观察数据是否空缺,看看空缺的数据是否为关键字段;
df.drop_duplicates()去除重复数据;
那条保留涉及相关字词的岗位的代码就很有用,之前没见过;
转换薪水和区分学历、经验那几段函数蛮严谨的,叫我自己写肯定写不出来;
主要思想就是,先把字段具体值调出来看看,然后根据数据形式进行清洗,然后改完后验证;
难点当然是洗无定法,要根据实际情况来进行,很考验功力的;
用replace方法去掉空格,.dropna()删除空值。
二、课程感想
四周学习过去了,课程有点赶不上,主要还是因为今年毕业下班后时间分配得不好,导师之前交代写的论文还没完成。课程过后还是要找时间来回看课程,关于数据分析、挖掘方面真是越来越重要了,公司数字化转型的过程中会带来很多机会,希望自己能努力追赶,早日在公司站稳脚跟,得到领导的认可呀!