大数据,机器学习,人工智能大数据大数据 爬虫Python AI Sql

如何处理重复值,这些方法你要早点知道

2019-08-26  本文已影响9人  猴子数据分析

职场中,总会因为某种原因而录入了重复的数据。比如,单位发放劳保用品,关于哪些人领了哪些东西的登记是一份很长的Excel流水账,姓名一列频繁有重复值出现,一份这样的表格,相信录入数据的人和审核数据的人看一眼都会头晕。

那么,如何处理重复呢?

接下来我用招聘网站的数据表格,来演示处理重复值的妙招。

需求1:如何删除“城市”列中的重复值

步骤:

1)鼠标位于“城市”列下的任意单元格,单击“数据”选项卡下方的“删除重复项”

2)在弹出的对话框中单击“取消全选”,选择“城市”标签后单击“确定”即可

具体演示动图如下:

需求2:如何高亮显示“城市”列中的重复值

步骤:

1)选中“城市”列中的目标区域

2)单击“开始”选项卡下的“条件格式”-“突出显示单元格规则”-“重复值”

3)在弹出的“重复值”对话框中为“重复值”设置突出显示的颜色后点击“确定”,“重复值”被高亮显示出来

需求3:如何统计“城市”列中重复值出现的次数

我想要知道哪个城市的招聘信息更多,那么需要对“城市”列中各重复值进行计数,办法有很多种,这里首选数据透视表

步骤:

1)鼠标置于数据表格的任意单元格,单击“插入”选项卡下的“数据透视表”

2)左方弹出如下视图

3)右方出现“数据透视表字段”框,我的目标是计算“城市”字段中的重复值出现的次数,所以需要将“城市”拖入“行”和“值”计算两处。演示效果如下图所示

需求4:如何显示“城市”列中的不重复值

这里,你是不是忍不住要问,“如何显示不重复值”和“如何删除重复值”本质一样呀,需求1中提到过“如何删除重复值”,剩下的不就是保留的“不重复值”吗

请继续安静地坐好板凳,只需10秒告诉你真相

步骤:

1)鼠标置于数据表格的任意单元格,单击“数据”选项卡下的“筛选”-“高级”

在“高级筛选”对话框中选择“列表区域”时,用鼠标去选择城市列中的目标区域,同时勾选下方的“选择不重复的记录”

单击“确定”之后,如下图行标签所示,重复的项均被隐藏了起来,没有被删除,本质上保留了数据的完整性。所以,需求4和需求1不一样,我们不一样

附加:还可以建立辅助列利用函数来标记“重复”和“不重复”值

此处用IF函数去嵌套COUNTIFS函数去实现

Mark知识点:

1)COUNTIFS函数的含义为:计算多个区域满足指定条件的单元格个数

2)IF函数是逻辑判断函数,它有三个参数。第一个参数是条件,第二个参数为条件满足时返回的值,第三个参数为条件不满足时返回的值

3)两个函数嵌套来使用,当A2单元格出现的次数大于1时,返回“重复”值,否则返回“不重复”值

最后将公式填充至整列,则实现了对“城市”列单元格内容是否重复的判断

效果如下:

通过以上学习,当再次与重复值面对面时,我们的思路豁然开朗。

推荐:你必须要学会,1个各行各业通用的技能

上一篇下一篇

猜你喜欢

热点阅读