RSA Conference 2019 阿里安全 Use mod

2019-03-05  本文已影响0人  C陈Cathy_chen

以下内容根据RSA 阿里安全的PPT学习得来,如果涉及版权问题,请与我联系。我立即删除。

安全数据分析中机器学习和统计模型

Machine Learning vs. Statistical Modeling

机器学习:依赖数据和算法

Machine Learning: Rely on data and algorithms

统计模型:依赖人的经验

Statistical Modeling: Rely on human’s experiences

相比起来「机器学习」在攻击检测上效果不佳。

机器学习擅长找到「正常模式」,但是入侵是异常行为。不能简单认为异常数据就是非正常的那部分。

‘大数据’不等同于‘大标签(labeled)数据’,无人监督学习的准确度和召回率不能支持安全运营的应用。

很难定义一个合适的功能来判断是否一个记录代表入侵没有。只有“是或否”不足以做安全分析。

适合机器学习的场景是一些特定领域,容易积累标签数据的那种。比如垃圾邮件、DGA域名检测、网络爬虫检测。

解决办法:使用统计模型解构威胁

Solution: Use Statistical Modeling to Deconstruct Threats

关键点:入侵的发现路径

入侵通常需要很长时间,有多个阶段,路经多个节点。

因此安全数据分析的过程如下:

1)数据预处理

去除正常数据中的干扰项。

2)攻击模型

识别可疑行为。

3)告警关联

基于风险给告警设置优先级。

  • 节点:资产、IP地址、网络
  • 连线:攻击关系、或者风险传播
  • 一对节点只能有一个连线,不管有多少告警在他们之间
  • 不同的攻击阶段
  • 资产的网络分布
  • 风险和每个告警的准确度

真实攻击要一直保持总结在100个告警以内!(运营单天处理能力上限)

上一篇 下一篇

猜你喜欢

热点阅读