手把手教你完成一个数据科学小项目（3）：数据异常与清洗

2018-08-17 本文已影响68人古柳_Deserts_X

前言

本系列将全面涉及本项目从爬虫、数据提取与准备、数据异常发现与清洗、分析与可视化等细节，并将代码统一开源在GitHub：DesertsX/gulius-projects ，感兴趣的朋友可以先行 star 哈。

请先阅读“中国年轻人正带领国家走向危机”，这锅背是不背？一文，以对“手把手教你完成一个数据科学小项目”系列有个全局性的了解。

截止目前，我们已经通过（1）数据爬取和（2）数据提取、IP查询，分别完成了对新浪财经《中国年轻人正带领国家走向危机》一文评论数据的爬取和数据的提取。如何你没看前两个教程、也没有一步步运行和理解之前的代码，“不要慌”，直接拿Sina_Finance_Comments_All_20180811.csv 数据进行分析、挖掘和可视化就行。

数据读取

本文继续用 Python 的 pandas 等数据科学库完成所有操作。首先读取数据，每一行代表一条评论，每一列代表每一条评论里的某一维度数据。很多列最后也没用上，但最开始并不知道，所以先都读取进来，不做筛选。

import pandas as pd
df = pd.read_csv('Sina_Finance_Comments_All_20180811.csv',encoding='utf-8')
df.head()

评论数

首先来看下所有评论数随时间的变化情况。

创建时间戳列

由日期列创建出对应的时间戳列。

from datetime import datetime
def time2stamp(cmnttime):
    cmnttime = datetime.strptime(cmnttime, '%Y-%m-%d %H:%M:%S') 
    stamp = int(datetime.timestamp(cmnttime))
    return stamp
df['stamp'] = df['time'].apply(time2stamp)
df.head()

DataFrame 的 shape 代表行数（爬到的评论总数）与列数：

df.shape

(3795, 19)

创建评论数计数列

根据评论时间的前后，创建评论数计数列，即最早一条评论记为1，后续递增，最后一条也就是评论总数。

import matplotlib.pyplot as plt
%matplotlib inline
df['cmntcount'] =int(df.shape[0])-df['No']
df['cmntcount'].head()

计数顺序和索引顺序正好相反：

0    3794
1    3793
2    3792
3    3791
4    3790
Name: cmntcount, dtype: int64

数据异常

评论数随时间戳的变化曲线有异常，一开始没太在意那一水平线是什么情况所致，也不知道哪里出的有问题，所以就先忽略了，继续后续的探索分析：

plt.plot(df.stamp, df.cmntcount);

pyecharts 之评论数变化曲线

本项目将多次使用 pyecharts 进行数据可视化。大家也可以自行安装 pip install pyecharts ，并按照官方文档：pyecharts 图表配置进行学习和使用。

具体支持的图表罗列如下：

Bar（柱状图/条形图）/ Bar3D（3D 柱状图）/ Boxplot（箱形图）/ EffectScatter（带有涟漪特效动画的散点图）/ Funnel（漏斗图）
Gauge（仪表盘）/ Geo（地理坐标系）/ Graph（关系图）/ HeatMap（热力图）/ Kline（K线图）/ Line（折线/面积图）/ Line3D（3D 折线图）
Liquid（水球图）/ Map（地图）/ Parallel（平行坐标系）/ Pie（饼图）/ Polar（极坐标系）/ Radar（雷达图）/ Sankey（桑基图）
Scatter（散点图）/ Scatter3D（3D 散点图）/ ThemeRiver（主题河流图）/ WordCloud（词云图）

注：开源后的 jupyter notebook里 pyecharts 图表部分无法显示，需 download 后运行代码过才可查看。

每小时评论数组合图

由于本文为了引出数据中存在异常，所以跳过 notebook 里的折线图和柱形图单图，直接拿最后的组合图（pyecharts 配置文档 overlap）进行说明。

截取时间列拿到月份日期和小时，并根据每小时进行分组统计：

from pyecharts import Bar, Line, Overlap
df['time_mdh'] = df.time.apply(lambda x:x.split(':')[0][5:])
df_mdhmax = df.groupby('time_mdh')['cmntcount'].max()
df_mdhcount = df.groupby('time_mdh')['cmntcount'].count()
from pyecharts import Bar, Line, Overlap
bar = Bar("每小时评论数")
bar.add("小时", df_mdhcount.index, df_mdhcount.values,is_label_show=True,xaxis_interval=-90,
        xaxis_rotate=-90, yaxis_interval=200,yaxis_max=800)
line = Line("每小时评论数")
line.add("小时", df_mdhmax.index, df_mdhmax.values,line_opacity=1,
         line_type='dotted', yaxis_interval=1000,yaxis_max=4000)

overlap = Overlap()
overlap.add(bar)
overlap.add(line, is_add_yaxis=True, yaxis_index=1)
#overlap.render() # 使用 render() 渲染生成 .html 文件
overlap

可以看到组合图里，柱形图似乎没什么问题，最早的评论出现在8月7号的晚上8点，最大的高峰出现在在8月8号上午9点，单小时评论数高达659条，之后逐渐衰减；

而曲线图里8月9号上午8点至9点两个时间点的累积评论数超过了相邻的前后时间段。凸起的部分不得不令人怀疑之前拿到的数据是有问题的，难道千辛万苦用爬虫拿到的数据出了幺蛾子？！

异常检测

不过既然知道了异常可能就在2018-08-09 8点-9点，那就选择这俩时间点的数据进行下排查下，一行代码就行：

df[df.time_mdh.str.contains('08-09 08')]

发生评论数据有重复，并且在表格中的数据并没有如设想的那样按照时间先后排列。

df[df.time_mdh.str.contains('08-09 09')]

9点的评论同样有重复，不方便显示就不放了。一开始也不清楚该问题为什么会发生，感觉爬虫部分没有问题，提取数据也中规中矩，后来重新爬取数据时发现，页码数在总页数的前几页就停止了。

至于重复是如何产生的，也是未解之谜，有知道的小小伙伴可以留言告诉我哈。

不过虽然不知道异常究竟如何产生的，但去除异常数据的方式却可由去重并重新设置下 index 索引和重设评论数计数列等实现。

数据清洗

由于本文一开始的数据就存在异常，所以“一朝回到解放前”，让我们重新读取数据，一切从头开始，首先就是删除掉重复的行：

将用户昵称和评论内容均一致的行删除重复，输出前后 shape 的变化后：

df = pd.read_csv('Sina_Finance_Comments_All_20180811.csv',encoding='utf-8')
print(df.shape)
df.drop_duplicates(subset=['nick', 'content'], keep='first',inplace=True)
print(df.shape)

共删除22行：

(3795, 22)
(3773, 22)

创建新的时间列

from datetime import datetime
def time2stamp(cmnttime):
    cmnttime = datetime.strptime(cmnttime, '%Y-%m-%d %H:%M:%S') 
    stamp = int(datetime.timestamp(cmnttime))
    return stamp
df['stamp'] = df['time'].apply(time2stamp)
df['time_ymd'] = df.time.apply(lambda x:x.split(' ')[0]) # 年月日
df['time_mdh'] = df.time.apply(lambda x:x.split(':')[0][5:]) #月日时 # 方便后续可视化时横坐标展示
df.head()

按时间排序后重置 index 索引
pandas.DataFrame.sort_values
pandas.DataFrame.reset_index

df.sort_values(by=["stamp"],ascending=False,inplace=True)
df.reset_index(inplace=True,drop=True)

创建评论数计数列后，将数据存储到新的csv里，后续就可以只在新csv里操作，而不必每次重新清洗数据了：

import matplotlib.pyplot as plt
%matplotlib inline
df['cmntcount'] =int(df.shape[0])-df.index
df.to_csv('Sina_Finance_Comments_All_20180811_Cleaned.csv', encoding='utf-8', line_terminator='\r\n')

最后组合图的评论数变化情况也正常了。

小结

本次遇到数据里出现异常也是始料不及，想当然的设想数据格式准确并去进行分析和可视化的结果就是一顿操作后，发现不得不掉头解决掉异常，于是很多努力“一朝回到解放前”，但这可能就是人生吧，那有什么一帆风顺，人生不就是起落落落落落落落落落嘛！逃。

本系列文章：
“中国年轻人正带领国家走向危机”，这锅背是不背？
手把手教你完成一个数据科学小项目（1）：数据爬取
 手把手教你完成一个数据科学小项目（2）：数据提取、IP 查询