RSA Conference 2019 阿里安全 Use mod

2019-03-05 本文已影响0人 C陈Cathy_chen

以下内容根据RSA 阿里安全的PPT学习得来，如果涉及版权问题，请与我联系。我立即删除。

安全数据分析中机器学习和统计模型

相比起来「机器学习」在攻击检测上效果不佳。

机器学习擅长找到「正常模式」，但是入侵是异常行为。不能简单认为异常数据就是非正常的那部分。

‘大数据’不等同于‘大标签(labeled)数据’，无人监督学习的准确度和召回率不能支持安全运营的应用。

很难定义一个合适的功能来判断是否一个记录代表入侵没有。只有“是或否”不足以做安全分析。

适合机器学习的场景是一些特定领域，容易积累标签数据的那种。比如垃圾邮件、DGA域名检测、网络爬虫检测。

关键点：入侵的发现路径

入侵通常需要很长时间，有多个阶段，路经多个节点。

因此安全数据分析的过程如下：

去除正常数据中的干扰项。

识别可疑行为。

攻击导向模型：相同类型的攻击倾向于有同样的特征
检索更多疑似攻击行为构成异常行为模型
精确度是最重要的指标：假阳性（识别为攻击但其实不是真的攻击）成本最高。比如增加打印机可能会导致网络重新扫描；一些基于云的服务可能有心跳检测；防病毒工具可能使用DNS通道抽样可疑文件。

基于风险给告警设置优先级。

节点：资产、IP地址、网络

连线：攻击关系、或者风险传播

一对节点只能有一个连线，不管有多少告警在他们之间

不同的攻击阶段

资产的网络分布

风险和每个告警的准确度

真实攻击要一直保持总结在100个告警以内！（运营单天处理能力上限）