机器学习 | 无特征URL异常模式检测

2018-11-23  本文已影响49人  AxsPlayer

背景:很多情况下,对于异常URL的判别是一项重要的工作,特别是在风控或者是安全防护的环境下。而在很多情况下,是无法获取很多跟URL本身相关的信息源的。比如,数据源受限,你无法获取到URL相关的数据。或者是对于URL判别有实时性的要求,所以无法通过爬取URL的任何内容来提取特征进行判断。
方案:在以上的限定情况下,唯一能使用的关于URL的特征只有URL文本本身。所以,如何通过url文本挖掘来进行异常模式的判别,是具有意义的。同时,通过最近大热的神经网络,能够对url进行自动提取特征,表示学习的效果要比人工构造特征更好。

URL文本挖掘模式?


对于url文本挖掘来说,主要通过几种方式:

从0到1构建算法


从最后的效果来看,对于url字符组织有意义和分层明确url的识别效果较好。但是对于存在随机生成字符模式(如图片名)的url的区分识别效果有待提高,或者通过文本挖掘对这类随机字符模式的url的挖掘精确达到了理论上的极限,有待后续分析。

附:
GitHub项目地址:

上一篇 下一篇

猜你喜欢

热点阅读