使用 Python 和 Pandas 分析犯罪记录开放数据
从开放数据中,你可以了解一个城市或社区是否安全,并合理避险。
本文借鉴 知乎@王树义 的分析思路,使用 Python 和数据分析包 Pandas 对该数据集进行分析和可视化。
原网址为:https://zhuanlan.zhihu.com/p/58314015?utm_source=qq&utm_medium=social
首先,访问 Denton 开放数据主页,地址是 http://data.cityofdenton.com/ 。搜索 crime 获取数据。
读入 Pandas 库,并使用 Pandas 方法读入 CSV 文件。文件保存在 df 中,并确认文件已经成功读入。
import pandas as pd
df = pd.read_csv('crime_data_20190322.csv')
df.head()
结果图
下面来着重分析一下,都有哪些犯罪类型,每种类型下,又有多少记录。
这里我们使用的是 Pandas 中的 value_counts
函数。它可以帮助我们自动统计某一列中不同类别出现的次数,而且还自动进行排序。为了显示的方便,我们只要求展示前 10 项内容。
value_counts()
是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值。
value_counts()
是 Series 拥有的方法,一般在 DataFrame 中使用时,需要指定对哪一列或行使用。
iloc
方法是基于索引位来选取数据集, 例如 0:4就是选取 0,1,2,3 这四行,需要注意的是这里是前闭后开集合。
df.crime.value_counts().iloc[:10]
结果图
可以看到位于前几位的犯罪类型分别为:轻微人身攻击,所有其他盗窃案,财产的破坏,醉酒,商店行窃,汽车失窃,使用毒品,诈骗,入室盗窃。
为了更直观查看数据统计结果,我们调用 Pandas 内置的绘图函数 plot
,并且指定绘图类型为“横向条状图”(barh)。
import matplotlib as plt
df.crime.value_counts().iloc[:10].sort_values().plot(kind='barh')
结果为:
结果图下面,我们着重了解某一种犯罪的情况。因为犯罪类型五花八门,所以我们从中选择一种严重的暴力犯罪——抢劫(Robbery)。
这里,为了后续分析的便利。我们首先把抢劫类型的犯罪单独提炼出来,存储在 robbery
这样一个新的数据框里。同样只展示前几种。
pandas.Series.str.contains()
方法可以通过查询每行是否包含指定字符串进行模糊查询。
robbery = df[df.crime.str.contains('ROBBERY')]; robbery.head()
结果图
我们查看一下“犯罪位置”(locname)类型,以及每种类型对应的记录条目数。
这次,我们使用 groupby
函数,先把犯罪位置进行分类,然后用 size()
函数来查看条目统计。
这里,我们指定排序为从大到小。
groupby('locname').size()
函数可以按照‘locname’这一列进行分组并统计数量。
robbery.shape
robbery.groupby('locname').size().sort_values(ascending=False)
结果图
当然以上代码可以使用value_counts
方法解决。
robbery.locname.value_counts()
结果相同。
根据结果显示,入室抢劫次数最多,在学校、公交车上发生的次数最少。
下面还是用 plot
函数,把结果可视化呈现。
robbery.groupby('locname').size().sort_values(ascending=False).head(10).sort_values().plot(kind='barh')
下一步,我们尝试把分析的粒度做得更加细致——研究一下,哪些街区比较危险。
地址信息都表示为类似“19XX BRINKER RD”这样的方式。把具体地址的后两位隐藏,是为了保护受害者的隐私。
我们如果要统计某一条街道的犯罪数量,就需要把前面的数字忽略,并且按照街道名称加总。
这个处理起来,并不困难,只要用正则表达式即可。
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑.
regex = r"\d+XX\s(?P<street>.*)"
subst = "\\g<street>"
这里,我们用括号把需要保留的内容,赋值为 street 分组。然后替换的时候,只保留这个分组的信息。于是前面的具体地址数字就忽略了。
调用 Pandas 的 str.replace
函数,我们可以让它自动将每一个地址都进行解析替换,并且把结果存入到了一个新的列名称,即 street
。
robbery["street"] = robbery.publicadress.str.replace(regex, subst)
可以看到在 DataFrame 的最后一列是简化的街道。
依然按照前面的方法,我们分组统计每一条街道上的犯罪数量,并且进行排序。
robbery.groupby('street').size().sort_values(ascending=False).head(10)
看来,大学西道(W University DR)抢劫频发,没事儿最好少去瞎转悠。
注意,我们其实是在分析10年的犯罪信息汇总。如果更进一步,想要利用时间数据,进行切分,我们就得把日期信息做一下转换处理。
我们从 dateutil
里面的 parser
模块,载入全部内容。
from dateutil.parser import *
下面,我们抽取年度信息。因为目前的日期时间列(incidentdatetime)是个字符串,因此我们可以直接用 parse
函数解析它,并且抽取其中的年份(year)项。
robbery["year"] = robbery.incidentdatetime.apply(lambda x: parse(x).year)
apply 函数是pandas
里面所有函数中自由度最高的函数。该函数如下:
DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)
该函数最有用的是第一个参数,这个参数是函数,相当于 C/C++ 的函数指针。
这个函数需要自己实现,函数的传入参数根据 axis 来定,比如 axis = 1,就会把一行数据作为 Series 的数据结构传入给自己实现的函数中,我们在函数中实现对 Series 不同属性之间的计算,返回一个结果,则 apply 函数会自动遍历每一个DataFrame 的数据,最后将所有结果组合成一个 Series 数据结构并返回。
字符串转日期
DateUtil.parse
方法会自动识别一些常用格式,包括:
-
yyyy-MM-dd HH:mm:ss
-
yyyy-MM-dd
-
HH:mm:ss
-
yyyy-MM-dd HH:mm
-
yyyy-MM-dd HH:mm:ss.SSS
更多关于此方法的介绍见 https://www.cnblogs.com/mr-wuxiansheng/p/7787296.html
以下是程序运行的结果,可以看到成功列出了 年、月、日。
我们先按照年度来看看抢劫犯罪数量的变化趋势。
robbery.groupby('year').size()
注意这里,数量最少的是 2019 年。看似是很喜人的变化。可惜我们分析数据的时候,一定要留心这种细节。
我们读取的数据,统计时间截止到 2019 年的 3 月初。因此,2019年数据并不全。