猫币黑市第四期——使用箱形图判断异常值

2018-09-06  本文已影响0人  热薯条

原创作品,转载请注明出处。
关注公众号「热薯条」获取更多精彩文章。

前言

上一期我们介绍了如何进行绘图,从连通图中进行社区发现 (community detection),社区发现不同算法的介绍,以及是如何运用到我们的模型上找出红包黑产的。

这一期我们将介绍如何对单个维度的数据提取异常值,并应用到我们的模型上。

背景介绍

在上一期得到各个用户社区后,我将他们又放到数据仓库中关联他们的行为数据,环境数据等,找出猫币黑市社区群体,最后对猫币黑市中的角色分类并定性。

猫币黑市中的角色分以下三大类:

储户

储户分为不明储户和大R:

不明储户

大R

“银行”

贷方

资金流转流程图

以上的特征是对他们定性的分析,那么我们如何知道输出金额,未开播转移金额/总金额比例这样的数据多大才算异常值呢?

这个时候就可以用到箱形图了

箱形图 (box plot) 介绍

箱形图, 是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理,快速识别异常值。

如果要了解什么是箱形图,那么一定要先了解五大因数,我们拿以下数据进行举例:

1, 2, 2,3,3,3,4,4,4,4,8

箱形图运用

我们将箱形图运用到我们的红包金额数据和未开播红包金额比例数据中:

红包金额数据箱形图

由于1.5倍区分出来的异常值规模过大,所以这边选用3倍和5倍来选出红包金额数据的最大异常值

红包未开播金额比例数据箱形图

可以看到箱形图在比例数据上效果不好,所以我们选用千分位图进行分析:

红包未开播金额比例数据千分位图

通过千分位图,我们可以看到大部分的用户聚集在 0或1之间,即要么一直在未开播情况下收发红包,要么一直在开播情况下收发红包。

这里认定只要是比例>0的数据即为异常数据

角色定义

参考文献

[1] 贾俊平、何晓群、金勇.统计学(第四版):中国人民大学出版社,2009年:66-67

更多精彩推荐:

猫币黑市第一期——通过大数据,机器学习揭露互联网直播行业黑产

猫币黑市第二期——技术流程、特征工程

猫币黑市第三期——图计算、社区发现

猫币黑市第五期——猫币黑市规模、甄别手段评估

原创作品,转载请注明出处。
关注公众号「热薯条」获取更多精彩文章。

上一篇 下一篇

猜你喜欢

热点阅读