设备指纹技术
1.两项关键技术
1.1大规模在线概率式记录关联
设备指纹的核心技术是,给定两条请求事件,给出这两条请求事件是否来自同一台设备。设备指纹的一项关键技术是概率式记录关联(Probabilistic Record Linkage),它的非概率式版本确定式记录关联(Deterministic Record Linkage)确实和self join很像。
SELECT column_name(s)
FROM table1 T1, table1 T2
WHERE P(T1.a, T1.b, T2.a, T2.b) > threshold;(贝叶斯)
设备指纹的原理很简单,那么难点在哪里呢?
第一在于设备指纹的典型应用场景反欺诈、营销追踪等都需要实时地给出匹配结果,也就是要在线,这就意味着数据来源不是数据库,而是数据流。
第二,传统的数据库的记录规模往往不是特别大,而在线反欺诈,每一个页面访问(PV)都会产生一条请求,要匹配的请求数,每天至少是亿级的。熟悉数据库的人都知道,一个一亿条记录的表格self join的复杂度是多高。这还只是简单的确定式的匹配。
第三,概率式模型,我会放在后面详细介绍。
所以做好设备指纹的第一步就是建立起一个大规模在线概率式记录关联平台。它牵涉到流数据的处理、分布式内存计算、算法优化、高效的信息搜索等多个环节。
对于设备指纹技术,机器学习的方法从数据中学习,让数据说话,摒除了人工规则方法的偏见和不稳定性。但是机器学习的方法也面临一定的挑战,最重要的挑战就是在很多场景下,标注数据是不足的。
近年来,半监督学习的兴起给设备指纹的机器学习带来了新的思路。半监督学习可以认为是监督学习的扩展,与一般监督学习不同的是,监督学习只能在标注数据上训练,而半监督学习可以同时利用标注数据和未标注数据。
生成式模型是一种典型的半监督学习方法,对设备指纹技术有很好的效果。
1.2 机器学习
就像每个人都有独一无二的指纹一样,每一台终端设备也都拥有独特的特征。这些独特的属性,在终端设备与外界通讯的过程中都会体现出来。追踪设备通信行为,并用先进的数据模型分析其特性,就能准确识别和关联设备,实现线上欺诈行为的识别和预警,这就是设备指纹技术的原理。被动式才是未来!
参考文献:
1.https://wenku.baidu.com/view/46aab9558f9951e79b89680203d8ce2f006665ad.html?from=search;
2.https://wenku.baidu.com/view/cfaed0e2524de518964b7d71.html?from=search;
4.https://www.cnblogs.com/jeffen/p/6855485.html;
5.https://www.2cto.com/kf/201606/516044.html;
6.https://www.jianshu.com/p/b6f4b0aca6b0;