虚假流量识别

2019-01-02 本文已影响3人 Liam_ml

广告投放环节

常见广告形式，SEM（搜索引擎），DSP，信息流，开屏广告

image.png
广告付费形式，常见的付费形式：CPM（曝光），CPC（点击），CPA（行动），CPS（）为主要的结算方式
跟踪广告投放数据，常见投放数据有展现量，点击率，点击量，消费，成功注册量，下载量

由于广告投放过程中服务方存在各级代理，存在流量获取的透明度不高的问题，可供作弊的灰色区域越来越多。

image.png

虚假流量的发生机制与获利方式

机器作弊+人为作弊

机器作弊：机器发送虚假流量，肉鸡访问网页，修改DNS/IP访问网页，爬虫访问网页
人为作弊：雇用人员点击广告，下载app，访问网页

目前较好的预防措施，是通过基础的用户行为分析来识别此类虚假流量，在通过补量，屏蔽的方法来减少虚假流量。例如：频繁跟换用户身份，大量使用同一个cookie，一个用户有成千上万的展示

人为作弊，可以深入分析用户的行为，比如转化情况

虚假流量的获益形式

CPM，CPC付费形式的作弊场景主要是刷广告指标，曝光，点击等等
CPA付费形式的作弊场景是刷下载，激活，留存
CPS付费形式的作弊场景是刷订单

围绕不同的付费形式，思考不同的作弊场景

虚假流量的生态圈

虚假流量的提供者：媒体与广告平台的利益捆绑
广告平台和媒体是虚假流量的提供者，两者掌握着大量的流量资源。

媒体广告平台媒体广告平台是广告流量的源头，也是广告投放链条中收益最大的一方，每年中国在营销广告的投放已经有数百亿元。日益增加的广告投放需求与流量需求，不停推动着广告平台自身对流量扩增的需求，这样虚假流量也就随之出现了。
广告服务商：广告服务商，作为广告主与广告平台的桥梁，是广告投放链路中重要的环节，广告服务商与广告主达成协议去完成其要求的 KPI 业绩，若无法完成 KPI，虚假流量也会成为实现 KPI 业绩的一种手段，例如：想尽办法创造下载量、访问量、阅读量等。

虚假流量的获取者：“KPI”压力下的无奈与默许
在一定程度上，广告主很容易成为虚假流量的“推动者”，例如在以下场景中：

面对考核指标的压力：当企业（广告主）过分追求 KPI 以及某些效果指标的时候，基于考核指标的压力会越来越大，当曝光、点击等指标无法完成时，不自觉地会忽视广告刷量的影响。
投放价格低：归因分析能够帮助企业判别最终转化源自哪个渠道（或哪些渠道对转化有积极影响），而企业经常会忽略这一功能。常见的原因是当投放预算充足、获客情况满足 KPI 的情况下，企业的营销运营会忽略不同渠道存在的虚假流量。而有些渠道的流量真假参半，若不去追溯每个渠道流量质量，就会纵容虚假流量对营销效果的长期影响。这对于以效果为目标的营销最为重要，尤其在年度复盘的时候，才发现损失也不是一个小数目。
企业融资需求：一些创业公司为了把下载量等数据做得好看，吸引更多的投资，也会主动用虚假流量的方式刷单。

高利润、低风险助长双方流量作弊
虚假流量并无高深的技术含量，且流量造假成本极低。相关数据显示：刷流量的成本不及正常流量成本的十分之一。

广告主对流量质量的评估，除了发布方提供的报告外，无直接证据证明对方造假，因此追究虚假流量难度大，维权较为困难。

识别虚假流量

识别虚假流量的难点
为识别虚假流量，广告主会因以下两个问题而犯难：

广告投放数据与网页转化数据断层，无法判断后续转化情况

广告投放数据与网页转化数据断层是信息不透明的重要原因。

什么是广告媒体数据？

前文提到，虚假流量会针对曝光和点击数据做假，这两个数据就属于广告媒体数据。

什么是转化数据？

当流量来到网站后就成为了访客，访客在网站完成交互（如：L注册、有效呼起、下载等）可以认定为线索，这就是转化数据。广告媒体数据与转化数据断层，也就是通常说的前后端流量数据割裂。
这种情况下，一旦转化率下降，广告主将无法判断是投放策略问题还是虚假流量作怪。广告主只能统计到前端的点击转化，不知道后续业务转化如何，广告主不能获得用户的详细信息，就很容易被广告平台所蒙蔽，尽管对广告平台的流量有所怀疑，也没有明确的作弊证据。

无法判断虚假流量渠道，并进行规避
无论是哪种转化行为（注册、呼起、下载、激活等）都离不开流量渠道，更多时候转化行为是由多个流量渠道共同承担的。

当全部流量混在一起的时候，即使你知道有虚假流量存在，也无法准确定位是哪一个渠道带来的虚假流量。

五、全流程数据流量监控是识别的基础

无论从哪个维度入手，识别虚假流量，需要将流量数据、行为数据和转化数据通过一定的数据采集手段，来获取完整、全面和准确的数据，目的是实现全流程数据流量的跟踪与分析。只有获取了完整全面的数据，我们才能找到虚假流量的踪迹，只分析一个虚假流量环节，不足以支撑虚假流量的证据。

image.png

识别虚假流量的常见纬度

基本属性:具体包括：时间 & 地域维度、终端类型、操作系统、联网方式、运营商、IP 集中等

时间地域纬度：正常的流量访问分布在一天中的各个时间段，地理位置比较分布均匀，访问趋势比较缓和。因此，通过流量产生的时间，地理位置，访问趋势变化来判断
终端类型不同渠道覆盖不同的用户群，用户终端会有一定的区别。比如小米应用商店渠道的用户，基本上是小米手机。理论上，排除特殊渠道的应用商店，大部分用户的终端的分布和互联网终端用户分布是类似的。

产品参与度:具体包括：跳出率、平均访问深度、平均访问时长、用户行为路径、页面点击情况、流量留存情况、单页面人均访问次数等。

跳出率跳出率可以衡量网站的质量，也可以用来衡量虚假流量的指标，如果跳出率过高，有可能是虚假流量在里面
平均访问深度，一般虚假流量的访问深度非常的低
平均访问时长，虚假流量的平均访问时长也比较低
用户的行为路径，一般用户的行为规律性不强，虚假流量的行为路径可能是有规律的
页面的点击情况
留存情况，真实的用户其中一部分肯定会继续访问
单页面人均访问次数

转化情况

总结

基本判断

时间维度，将时间细化到小时，看时间的一个分布
用户的访问设备分布
ip的集中程度
一般而言，某一个ip频繁点击，流量激增都是不正常

产品参与度深度判定

跳出率
看平均访问深度
看平均访问时长
看转化