如何读论文（壹）

2018-08-22 本文已影响57人木千之

2018/8/21 17:23:05

作为一名研究僧，读论文，尤其是国外英文论文是家常便饭。记得14年刚入学时，就见过师兄看过的可以堆半米的双排论文集。尤记得当时的惊讶与赞叹！及至三年级末，新来的硕士小师妹们看到我堆了半米的单排论文集，嘴巴睁大成一个字母O型，惊讶地直说“师兄你太厉害了！！”

自己笑笑，比起师兄自己差远了，作为一名研究僧，从最初的学习知识变成了创造知识；对于知识权威的盲目崇拜早已打破，因为自己知道了所有的结论假设都有存在的前提，即

所有真理都有存在的前提假设，不存在无条件适用的万能钥匙。

因此，今天所谈的如何阅读论文的方法，大多也有其成立的前提，其前提是基本具备了读该论文的专业知识，并且是否适用于每个人，需要自己亲自去尝试改进。

探讨如何阅读论文，一方面是自己每天科研工作不可逃避的重要组成部分，另一方面也是自己在实践中不断反思总结的成果，既有教训也有经验。言归正传，开始我们的第一篇。

读论文的首要工作是懂得筛选论文

第一轮筛选（题目、摘要与关键词）

开枪前首要工作是瞄准，狙击手大部分时间都用来瞄准修正，射击仅仅一瞬。十分同意知乎上某位答主的看法：你的时间以及注意力都是稀缺资源，如此稀缺的资源不能浪费在无关、垃圾的论文上。因此，当你拿到一篇论文后的首要工作不是立马扎进去看，而是首先需要判断：这篇论文是否值得一读？

你应当首先关注论文的题目、关键词以及摘要，之所以如此，是选择了语言最精简、吹嘘成分最少的论文部分来尽快确定论文研究的主题以及文章类别，如：

The CERT Guide to Insider Threat（这显然是一篇技术性文档，可以想象里面没有实验，可能有很多的统计分析结论与行为模型，但是缺乏充分的验证与讨论）

The Dark Side of the Insider: Detecting the Insider Threat Through Examination of Dark Triad Personality Traits（这是一篇学术论文，而且研究的主题是Insider Threat，切入点是心理学的personality）

A Review of Machine Learning based Anomaly Detection Techniques （这显然是一篇review，即综述，通过阅读它可以了解最近异常检测的最新进展）

一般标题可以给我们足够充分的信息，像上面那样可以帮助我们判断这篇论文的主题与文章类型，从而判断是否要继续看关键词与摘要。通常关键词与题目有许多重合，我们更应关注摘要部分，因为摘要部分往往会说明论文写作的目的、主要工作以及结果：

以上图文章的摘要为例，可以看出其写作初衷是

系统日志记录了系统重要的事件与状态，因此对于安全分析与异常检测而言是十分重要的数据资源；

因此本文基于系统日志分析建立了DeepLog分析系统，该系统主要借助自然语言处理的模型假设，使用RNN（LSTM）框架建立异常检测分类器，具体工作有：

1.使用LSTM的RNN网络框架，将系统日志建模成自然语言序列；

2.提出了日志模型的异常检测算法；

3.展示了在线更新方法；

4.提出了工作流构建方法以用于诊断分析；

5.实验表明DeepLog优于现有日志异常检测系统；

通过快速浏览题目、摘要以及关键词，你可以迅速明确论文的主题与类别以及做的主要工作，从而帮助你完成第一步筛选。如果你感觉论文的研究对你而言有些吸引力，那么，就需要进行第二部筛选。

第二轮筛选（结论）

结论与摘要有相似的部分，但是往往要比摘要提供更详细的方法细节，而且结论往往提供了最有说服力的实验数据以强化论文的成果。因此，通过仔细阅读论文的结论部分，可以获得论文研究方法以及研究成果的更进一步信息。比如上文摘要对应的结论部分：

可以进一步获得摘要上提到工作的更详细信息：

1.总体成果：提出了一种基于深度学习RNN（LSTM）的通用在线系统日志异常检测与诊断框架

2.与已有研究的改进：补充了系统日志的时间戳与参数信息；从每条日志层次分析检测，而不是已有的会话层次；

3.DeepLog可以利用LSTM和经典的密度聚类两类方法还原构造工作流；

4.结合人工干预，可以实现DeepLog的在线更新；

5.实验的深入分析表明了DeepLog优于已有方法；

基于摘要提供的工作成果框架，进一步丰富“血肉”，知晓了更多方法的细节。如果你对系统日志时间戳与参数的分析方法，以及LSTM和密度聚类的工作流构造方法感兴趣，那么恭喜你，顺利通过第二轮，可以进入到下一步；否则，读到这就可以放下选择新论文了。

第三轮筛选（图表）

好的论文离不开好的实验分析，而好的实验分析往往需要借助漂亮、契合的图表展示。尤其是改进类研究，通过图表可以清晰看出新方法改进的程度。

如下表中，体现了相同数据上不同方法与DeepLog方法的比较，可以明显看出DeepLog的综合优势最为明显。

而紧接着的图表中对比了使用与不使用在线更新的结果，显然在线更新后的误报率更低。

如果看完图标确实感觉作者的工作改进幅度较大，很不错，值得点赞，那么可以继续深入到下一轮，否则此轮结束后淘汰。

第四轮筛选（实验分析）

实验分析往往最能体现作者功力。同样的实验不同的人分析往往有着不同的深度与见识。因此，通过速读作者的实验分析，可以发现作者的理论分析功力以及思考问题的深度。

当然，如果这一轮过后仍然认为文章不错，恭喜你，论文通过了筛选，可以进入到最终环节：研读实验分析方法部分，这部分最为困难，因此必须十分谨慎确保研读的论文确实对得起自己花费的时间与注意力资源。至于如何分析研读实验方法这块“硬骨头”，我会在之后的分享中陆续更新。

小结

今天作为如何读论文的开篇，我们首先介绍了如何筛选论文的方法，因为在这个信息爆炸的年代，选择有时候比理解更重要。我陆续从手机上卸载了微博、空间、抖Y，只保留了知乎、即刻与得到，实现自主定制化的信息获取，只看自己需要的，不看那种哈哈一笑而过丝毫不能改变生活现状的。

今后，随着继续研读论文，我会陆续更新自己读论文中的所思所感，作为可以借鉴的方法分享给大家。如果你对于如何阅读论文有兴趣或者有疑问，欢迎留言讨论。

祝大家刷论文如刷抖音，打开就停不下来~