总结:二进制安全阅读论文总结

2020-06-09  本文已影响0人  VChao

2020/06/09 -

引言

关于本部分二进制安全相关的东西,一开始我没有准备看论文,主要是想找一些相关的工具来实现自己的目的。起初,我是希望寻找一个工具能够对比二进制文件的相似度,通过搜索之后,定位到了ssdeep这个工具,对这个工具进行了实践,能够得到一些相应的结果。但在这个过程中发现了一个博客复现了大致是17/18年左右一篇顶会(代码相似度)的论文(后面具体介绍),在阅读了这篇论文之后,萌生了阅读二进制相关论文的想法。通过deepai.org上进行关键词搜索,加上从其他论文中发现的论文,算是大致阅读了10+论文。

来简单说一下,我发现的他们所研究的二进制领域。

  1. 代码相似度比较(跨平台,或者不跨平台;这个相似度是怎么定义的呢?就比如说,我这里想到的一个问题,代码指令后面是内存地址,那么每个程序可能都不一样,这种可能会导致某个恶意软件的哈希整体就变了,这种肯定只能从指令级别来进行了)
  2. 二进制漏洞发现(这个应该就是我看到的那篇澳大利亚的论文的主题,这个本质上应该也是代码相似度比较吧,而且我举得,发现未知漏洞的可能性比较低,而且这种好像还不能使用异常检测的方法)
  3. 恶意软件检测(并定位问题所在)

但是还发现了一些相关的东西,比如说函数定位这个东西。

其实说实话哈,我就是在思考,这种利用这种方式能够发现未知的漏洞吗?
这个问题好像我之前也提到过,就是程序必须找到了那种最基础的特征才行,这个特征就是类似原子操作一样的东西,他是一个基础。

论文主题思想简单总结

关键技术总结

通过阅读上面所说的技术综合论文,基本上完整了解了这个研究领域的整体思路,这里我先简单说明一下流程。

我个人认为,上述步骤中,比较重要的几个步骤就是中间两个,

  1. 数据处理方式需要了解这种方式(比如AST、CFG)这种形式都是什么含义,可以通过哪些工具实现,或者说直接使用汇编级别的代码。
  2. 第二个是我不了解的,虽然我知道word2vec的基本形式,但是我不了解其他的内容。对于图嵌入,当时也看了一些相关的文章,也是能够了解都是什么意思。但都没有具体编码实现过。

相关的思考

正如前面所说,我虽然能明白你在实现原理上的大致思路,就是要干这件事,就是要转化成向量,就是要实现最后的分类。单纯的从数据上来,这一步一步都是起承转合的。但是,对于我来说,就是没有找到具体实现的这个目标和采用深度学习的桥梁。可能最让我疑惑的,就是利用自然语言处理方式直接处理汇编代码级别的方法。下面来简单思考一下。

  1. word2vec(skip-gram)的具体原理,就是指利用单词可以通过上下文进行标识自己。说的简单点,在训练过程中,就是利用自己这个单词来预测其他的单词。这也是在其他的2vec方式中借鉴的思考。比如图节点的嵌入,就是来预测其他的边。或者说路径,来预测其他的路径。 这个原理说来简单,你在自然语言中,就是为了表达语义问题,将相同语义的数据转化到嵌入空间,语义(由上下文来觉得)相同的,会聚集在同一片区域。那么既然这样,如果是通过通过这种方式来预测汇编代码的话,能体现出来什么?
    我仔细思考了一下,我好像忽略了一个问题,现在都是使用word2vec,我还从来没有考虑过,如果是一个句子,我应该怎么来比对这个相似度。是不是在理解了这个过程之后,就能了解这个了呢?

  2. 具体的关键语义部分
    前面提到了他们使用attention来实现语义什么的,虽然感觉我好像理解了他们具体目标,但是感觉上,好型不是那么回事。甚至于,他们有的论文是讨论这个机器学习的可解释性(这个可解释性有一部分是指提取出重要特征,我感觉我前面所提到的语义信息跟这个还不一样)这里其实是一个矛盾的地方。

  3. 特征部分
    可能如果是使用图嵌入这种方式的东西

后续的研究计划

因为本身我并不是专门研究这个东西的,只是觉得这个东西很有意思,而且能够把帮助我吧一些深度学习的东西给加深印象。后续的话,要学习的东西,也基本上是围绕深度学习来开展。

  1. 学习2vec的原理,并实现编码
  2. 学习attention机制,看看能不能应用
  3. 应用这种东西,尝试自己来进行二进制相似度比较

参考文献

[1]microsoft-researchers-work-with-intel-labs-to-explore-new-deep-learning-approaches-for-malware-classification/
[2]application-of-ai-to-cybersecurity-part-3


2020/06/26 -
https://medium.com/@massarelli/safe-self-attentive-function-embedding-d80abbfea794

这个是我之前看到的一篇论文,他这是把自己的论文凝缩到了这个地方。

上一篇下一篇

猜你喜欢

热点阅读