生信入门者需要知道的建议-(转载)
生信入门者需要知道的建议
本文转自----生信菜鸟团
原创 lakeseafly
作为一个过来人,很明白作为生信小白的感受,容易踩坑,犯错误,会迷茫不知道怎样解决一些遇到的问题。对于这方面的疑惑,最近读到一篇很好的文章,对小白常遇到的问题给予了一系列的建议。
下面和大家简单分享一下:
有时候,你总找不到满足你需求的工具,这时候你需要自己的脚本
通常百分之八十以上的分析,都是有人做过的。在这样情况下,网上是有现成的轮子(工具),我们只需要花点时间去Google一下,答案或者脚本总会能被找出来。但是随着分析越来越深入,你开始挖掘一些你所感兴趣的个性化问题时,就找到能找到满足你要求的现成的工具。这时候,因为没人做过你的分析,基本是没有现成的轮子的,需要通过你自己来编写脚本。这时候就需要把你的编程技能展示出来,达到你的目的。
有时候,你会发现太多工具能满足你的需要
工具太少,你需要写自己的脚本,太多又会变成选择困难症。究竟该使用哪个工具,哪个工具才是最合适我的数据的呢?如果你够幸运,又或者这个工具是很常用的工具。这时候你可以在一些综述,或者与该工具相关的文献中,找到与之相关的多个工具的对比测试报告(比如比对工具,往往会和将多个工具相比较,比较哪个工具的比对率高,所需时间,线程或者内存更少)。在这些文章中,作者一般会使用不同的数据测试这些工具,并且给予你该什么情况下,使用什么样的工具的建议。但是并不是所有的工具都具有比较权威的比较实验,这时候你需要利用自己的数据,测试出最合适你的工具。当然,当你从一个小白进化成老鸟后,随着你经验值的增加,你会慢慢的积累出什么数据该用什么工具的经验。
分析上存在的很多问题,其实很大程度上源自于你的数据
有时候我们得到分析结果后,发现有一些生物学的问题比较奇异。然后你试图解析为什么会产生这样的结果。经过严格地检查后,你没有发现你分析流程上有任何的错误。这时候,你需要考虑,这是因为你的原始数据有问题所产生的。常见的由测序产生的问题有很多,如PCR的偏倚性(如果你的数据的GC含量中发现异常,那么我可以很肯定是PCR的偏倚造成的),又比如测序中可能会存在污染的reads等。为了减少数据质量对分析的影响,我们在分析之前一定要做好质控的工作,将低质量的数据过滤或者去除。
安装工具并没有你想像中那么容易
如果你是生信小白,刚刚接触Linux,你一定习惯于“过去的软件安装方式”。下载后软件后,双击安装包以进行软件的安装。但是对于大多数的生物信息分析软件,其安装方式都是基于命令行的。软件安装可能会涉及到不同的步骤,并且需要安装各种依赖的包或者工具。另外还需要注意到的是,你还可能需要应对不同的环境变量。不同工具在同一个环境中会存在冲突。由于这些原因,对于个别的工具安装(例如maker注释工具),其耗时可能比你分析运行本身需要更长的时间。
当然对于工具的安装,你也不需要害怕。安装工具是每个生信工作者的必修课。你的安装经验,会随着你安装工具的次数和耗时慢慢增加。另外一些工具例如conda或者docker,都可以帮助你更加轻松的安装和管理你的软件。
当你等待你分析结果时,你仍然可以很多其它事
对于很多生信小白来说,递交了分析工具就感觉万事大吉了。然后一遍一遍查看进程,等待着分析的完成,结果的输出。相信每个人,在刚刚入门时候都会有这样的经历。等待分析结果,是我们每个生信工作者都必须面对的事情。在等待途中,我们不必一直查看进程(你并不会加速你分析的进程),我们可以利用好中间这段分析进行的时间,进行文献阅读,回复邮件,或者与你的小伙伴进行讨论。在一定周期,对你的工作进行查看即可。当你经常运行某些分析,对某些软件非常熟悉时,你可以大概估算出运行的时间。
你必须主动地获得软件的"支持和帮助"
当你运行某一款工具并遇到了问题,你试图通过Google或者biostar 进行求助后,仍无法解决。这时候千万不要坐以待毙,联系该工具的作者(可以通过邮件,或者大多数工具都有对应的GitHub,可以在相应的issue板块进行留言),他们是最能帮助你的人。我曾经有过这样的经历,我花费了好几个星期在biostar上寻求解决某一个工具遇到的bug,但是很多回答并没有根本解决我的问题。在最后,我联系了该工具的作者。他们只花了一天就点明了我的问题所在,原来他们的工具在分配内存时候,存在一个小的bug,当运行数据量过大时候,就会断掉。后面经过他们的两三天的修改,更新版本后的工具如愿以偿的完成我需要的大数据的分析。记住,工具作者是最了解他们自己工具的人,有问题他们一定是你最需要联系的人。
后记
对于生信小白来说,这些建议只能说是有助于避免千千万万的坑之一。但是,我们需要记得一点是,作为新手我们不需要害怕踩坑。踩坑是我们成长积累经验的过程,这是每个人都需要经历的一段经历。最后,欢迎大家在下面的留言区,分享你作为小白踩坑的经历,并且可以的话,把你的认为可行的建议也附上。使更多小伙伴收益。