生信小白NGS避坑指南

迈向可重复的生信分析

2019-10-15  本文已影响0人  lakeseafly

引入

尽管科学界普遍同意,可重复再现是评估数据分析的最低标准,但是由于缺乏对数据的整理,对代码工具使用版本的记录等,重复再现某人(甚至有是你自己的)结果都不容易实现。我们常常会遇到以下列举的一系列问题:

讲了这么多,这里就是希望指出:适当记录实验步骤,让分析可重复的重要性。

如何进行可重复的生信分析

在excel文件中整理好你的数据

我们日常整理的数据基本都会用到excel。在我们进行可重复生信分析之前,我们首先要让初始的excel数据整理得清晰易懂。

首先先看两个例子:

整理前的excel文档:


整理后的excel文档:


通过对比可以看到同样的信息,在正确排版整理后,可读性得到了极大的提高。

对于我们该如何整理excel的文档,作者很贴心的给大家整理了一些小tips:

管理好你的projects

科学大牛曾说过文件命名和管理是有效数据分析最有力的武器。

继续展示一个非常经典的,没有正确进行文件名管理错误例子:

大脑为了偷懒,我们常常会使用最简单的方法进行命名,例如fig1png,fig2png。而且由于很多时候,我们分析不是一天完成的,由于每天的心情不同,我们命名的方式又会出现一系列随机的变化。这个错误的方式可能会在一时间让我们很方便,让我们错以为我们已经将需要的信息已经保存起来了。但是日后过了一周一个月半年,再回来找该文件的时候我们会发现,我们很难再找到我们所需要的东西,因为我们命名的方法并没有任何可寻的归类。

关于如何进行文件名管理,很久之前我已经发过一篇推文,阐述比较好的文件名管理方式:

看完我的推文后,也顺便总结一下视频作者给出的建议:

为一切东西写脚本记录

很喜欢一句话“如果你要做一个分析一次,那么你以后可能会做1000次一样的分析”。将你的每一步分析写成脚本,你一定会受益其中的:

这里视频作者也给出了一些相关的小技巧:

另外对于如何进行脚本的记录,我以前也写过一篇文章,里面更加详细地介绍了如何进行脚本记录:

进行环境管理与版本控制

进行环境管理和版本控制也是决定一个分析是否能够重复的关键。这部分视频作者比较简单的带过了,没有进行太过仔细的分析。对于如何进行环境与版本管理,会推荐使用conda和docker。这里就先挖个坑,我日后给大家详细介绍。

总结

最后将上面的内容简单总结为几个小点:

参考链接:

  1. https://speakerdeck.com/minecr/the-results-in-table-1-dont-seem-to-correspond-to-those-in-figure-2-427452c9-ca4f-4e35-b911-590e6c577430?slide=47
  2. https://www.biostat.wisc.edu/~kbroman/presentations/cmp2018.pdf

视频链接:

https://www.youtube.com/watch?v=994uO3U-R1c&feature=youtu.be

上一篇下一篇

猜你喜欢

热点阅读