欺诈分析学习（一）

2020-02-24 本文已影响0人番茄酱的汪

欺诈检测基本概念

欺诈现象遍及商业社会的各个领域

银行业：伪造银行卡、办理多张信用卡不还、信用卡套现。例如：visa有一部分的坏账率
证券业：存在关联交易。
企业：偷税漏税。
电信业：欺诈性收费。
保险行业：虚假索赔。例如：车险骗保。

欺诈分析存在的前提条件

人力审核速度与质量无法满足现代商业需求
基于历史业务部数据库，数据挖掘技术已经成为了提供自动预警和发现欺诈的辅助手段。
前提：企业应当以商业原则来运行，以利润最大化为基本需求。

欺诈分析的难点分析

对于欺诈的定义

粗略而看，反诈骗是二分类问题｛诈骗，非诈骗｝
若把每一个诈骗方式当做一种单独的类型，其实是多分类问题
很多时候客户不明确什么行为是欺诈，定义很模糊
- 几乎不存在单一类型的诈骗，诈骗手段日新月异，总是在变化
- 每个行业欺诈行为可能完全不容，互相不具有参考性
- 只有“通过这些手段来牟利”这一点是恒定不变的
多种欺诈行为数据混合在一起，发现各种诈骗类型就很困难

欺诈模型的难点

欺诈发现所使用的数据在绝大多数都是没有标签的，各种监督学习方法无用武之地（正常异常拆不出来）
- 区分噪音和异常点的难度很大，甚至需要发挥想象的空间（需要专业知识、需要经验）
即使获取了真的欺骗历史数据，仍然很困难
- 数据严重不平衡，欺诈样本可能知道0.01%不到
- 这样的数据构建的模型只能检测曾经出现过的欺诈模式，对于新玩法则无能为力
因此，欺诈分析绝对不能单纯依靠监督学习的模型来解决问题

欺诈发现模型和信用评分模型的差异

信用评分模型是经过多个步骤最终完成一种类型的模型，模型构建流程相对固定，模型应用方式也比较明确。（根据客户提供的历史数据对客户进行信用评分，判断是否需要放贷。一般只用 $logist$ 回归）
欺诈发现是要建立多个模型以发现疑似欺诈的多个线索，而每个模型的建立过程不一定要十分繁杂，有些甚至就是一些简单的数据整理过程。
- 在这个过程中，与业务人员对欺诈模式的探讨对数据挖掘建模思路的形成将至关重要。
信用评分模型随着经济环境变化的时候，建模思路并不需要做太大的改变，变化只是模型参数的调整或者输入变量的变化（互联网金融数据）
欺诈模型的更新经常会是原有建模思路的变化，或者说心得建模思路的添加（与骗子一起与时俱进）
- 必须要能够跟踪欺诈手段的最新变化，而欺诈方也在不断逃避已有监控手段的跟踪和监控
- 核心要点是把握住欺诈的最终目的是在经济上获利
信用评分模型的数据必须应当是业务人员可理解的方式
- 为此不得不采用变量分享、结果概率转化为等级评分等可能模型效果受影响的措施。
欺诈模型可以直接以业务部系统上运行的复杂模型形式存在
- 有的模型可以是全自动代码执行
- 可以提供报警原因（可能仅仅是提示），供后续人工干预时参考

欺诈发现的三种思路

比对法

基于业务规则发现不合理情况
- 例如：同一信用卡在相邻很近的时间内（例如5分钟）在相距较远的地方（上海、北京）完成了两笔交易
- 例如：统一企业缴纳的税种在数量上明显不符合常规
比对法最容易嵌入业务系统，得到的结果确定性也最强，一般可直接进入欺诈业务处理流程
- 主要依靠行业经验来设定规则，相对尔雅你没有太多数据建模的工作

比较法

特征类似的个体应该具有类似的行为特征
- 潜在前提：所处社会为稳定状况
- 例如：保险行业，如果两个年龄、性别、病症特征基本相似的个人索赔金额差距过大，则可以将索赔额高者判定为疑似欺诈加以进一步审核
- 显然，正确定义“特征类似”对分析非常重要
同一个体在一定持续时间内应该表现出相似的行为特征
- 潜在前提：所观察的个体为理性个体
- 例如：如果一个4S汽车店，某一个月份保险索赔额突然大幅增加，则可将其纳入意思欺诈加以进一步审核

注意：比较法只能发现疑似欺诈的线索，但并不能确定欺诈现象一定存在，需要进行进一步审核**

模型法

预测类模型

有历史数据集，通过历史数据集来预测

目标变量设定是否欺诈，从而建立欺诈行为的预测模型（定性模型）
目标变量设定为业务发生额，建立目标变量的定量预测模型，将实际发生额远高于预测额度的判定为疑似欺诈（定量模型）
在业务人员不足的情况下，按照额度的大小确定案件有限顺序也很重要

细分类模型

欺诈行为往往在聚类中表现为较小的一个行为异常群体（可以先分成几个子群体，然后再每一个类别下面继续监测）

关联规则模型

股票坐庄中的对倒行为
洗钱操作中特定账户之间的资金流动关系

欺诈案例

医疗保险欺诈案例

数据理解

医疗保险业务流程中的三个角色

投保人：医疗服务的受益者。当购买了保险后，当本人看病的时候，医保公司会承担一定比例的费用。这些费用是在交费的时候自动扣除。
医疗机构：医疗服务的提供者。在投保人买了保险的时候，会由医疗保健机构先垫付保险所覆盖的医疗保健费用。
保险公司：医疗服务的中间商。通过向投保人提供医疗保险获得保费收入。通过受理医疗机构的保险索赔进行支出。两者之间的差额就是它的利润.

欺诈行为中的角色定位

保险公司：欺诈行为的受害者。当欺诈索赔额过高的时候，就会使得保险公司的利润下降甚至亏损
医疗结构：欺诈行为的发起者，通过对不存在或虚高价格的医疗服务进行索赔，获取不当收益
投保人：虽然也可能存在欺诈，但是这类型为应当并不是欺诈行为的主体，更多的可能性是医疗机构进行欺诈性索赔时的“载体”或者配合者

结论：绝大多数的欺诈行为都应当从医疗机构的非法获利需求出发加以考虑。

欺诈分析学习（一）

欺诈检测基本概念

欺诈现象遍及商业社会的各个领域

欺诈分析存在的前提条件

欺诈分析的难点分析

对于欺诈的定义

欺诈模型的难点

欺诈发现模型和信用评分模型的差异

欺诈发现的三种思路

比对法

比较法

模型法

预测类模型

细分类模型

关联规则模型

欺诈案例

医疗保险欺诈案例

数据理解

医疗保险业务流程中的三个角色

欺诈行为中的角色定位

猜你喜欢

热点阅读