访问日志的异常请求检测

2020-04-01  本文已影响0人  VChao

2020/04/01 -
本文是对文章[1]的阅读,具体细节请参考原文。


本文是对文章[1]的阅读理解,本文是对访问日志的聚类分析,出发是利用HMM对URL进行泛化过程中, 因为需要对每个URL都进行泛化,所以他提出另一种泛化的方式,直接全部都进行替换的形式。
然后利用了一种聚类的算法。是可以检测到不少攻击的,但是实际效果并不是非常好。


文章[2]是文章[1]发表在先知社区的版本,下面有人的评论中提到了一些其他的内容。文章[1]的主要思路就是url参数泛化 > tfidf词袋 > dbscan聚类 > tsne降维可视。对于词袋方面,是不是可以还有其他的方式。
我觉得这是一个比较好的思路,就是说是不是还有其他内容再来统计呢?
或者说,有没有在hadoop下的实现算法,就是大数据量的情况下。(在github上搜索了一下,发现已经有这方面的代码了,不过还是要思考,是不是后续的机器学习算法也有分布式的版本,感觉这个问题我之前思考过,好像spark也不能非常高性能的支持,这个后续可以了解了解。)
这个可以后面来调研调研。


基于机器学习的WEB异常检测
这个文章中提到了多种检测方式,然后还有一个github上提供了数据,这个可以后续做一做。还有提到了阿里在知乎上专栏的文章,这个可以好好坐一坐,不用想着弄多好的东西,就把这个内容给浮现出来。
我看了一下github上的这个程序,他的数据就直接是请求,应该是直接从请求的url里面抽出来的。
对于分类,他使用了3-gram,然后利用tf-idf来url的预处理。这个方法应用于URL的话,感觉还像那么回事;然后使用了逻辑回归的方式进行分类。
但是我现在的一个想法就是,是不是可以提取出更有意义的特征呢?这个问题感觉就更有意义。
操作过程中,对所有的数据进行了相关的文本转换,可能造成数据的泄露,这个在文章中也提到了。整体的准确率是99.8%,感觉太高了。但是,在实际操作中,这种异常请求的分析又有什么问题呢?

参考文献

[1]基于访问日志的异常请求检测
[2]基于访问日志的异常请求检测

上一篇下一篇

猜你喜欢

热点阅读