【生信小记2018-07-13】学以致用的小小成就感
从接触计算机之后,大多数学习工作的时候,我们用的最多的就是Office办公软件了,每一篇论文的诞生离不开word文档,每一次汇报离不开ppt,甚至无数的数据也都经过excel得来。学习了一段时间的R,慢慢感受着它的强大,而从学习到应用还是一段很漫长的路,而且是一段披荆斩棘的路。从学习敲代码到练习做项目,还是一条很长的路,而此刻的我感觉已经走了很漫长的一段平路要开始爬坡了。今天就来记录一下这两天一个数据筛选让我学习到的东西,以及为什么开始嫌弃office了。
不得不说,当我第一次拿到转录组差异基因大表时,筛选差异基因我还是用的excel,那时候还佩服excel的if判断挺实用,一句话可以筛一列,以前傻傻做加减号甚至目测晒数据的时代终于过去。学了一段时间R这次拿到新表,我决定用R试一试,不试不知道,一试就爱上了它,虽然这个爱来的也有些不容易。
接触了R也有几个月,不过也都是停留在练习讲义里的代码,照葫芦画瓢的做练习题上。真正要按自己的意愿去做东西时,还是发现无从下手,就像我们学了那么多年英语,遇到一个老外还发现自己不知道怎么张口一样。还好,这是一场开卷考试,不会的我们可以查讲义,问google(来了国外大多数时间我也已经放弃了度娘),还有随时不懂可以请教的小师妹和热心的群友,所以困难一下子小了很多。也在一个下午那小数据组织代码,旧数据测试,最后做自己的数据分析。可能这就是一个简单的生信学习分析路径吧。虽然解决的是很简单的问题,但是还是有那么一丝小小的成就感。
其实我做的事情很简单,就是提取了有注释的est,然后去除了几组TPM全为0的值,然后按一定条件筛选了差异基因,画了一个韦恩图。这一切,office完全可以搞定。比如可以通过excel利用排序和if判断,提取想要的信息和做筛选,这些我都手把手做过,韦恩图ppt画几个圈圈就可以搞定。如今接触了R之后,顿时觉得好嘲笑刚入学的自己,花了好几周傻乎乎的在那眼筛近万个EST,眼睛要瞎一不留神还出错从头来。所以当时师弟说的很有道理,学生信的人要懒一点才好,因为他们才不会愿意花大把的功夫做无聊的重复工作,总会想出办法解决来,那就是用最短的语言来解决重复的工作。如今R就做到了,所以有些时候勤奋是一方面,更多的时候还得用脑子。就像我花了一个下午的功夫,虽然也可以用来完成这个筛选的工作,但是我建立了一套方便自己使用的筛选代码,以后新数据来了只需要做简单的修改,直接点run就OK了,这种付出会觉得很值得。
因为有了excel和R的比较,我也发现了excel的一些问题,比如用以上两者我得到的结果有出入,于是我就在这些出入中找问题,最终发现excel处理的数据是有限的,E-310以上的数据它就工作不了了,而R完全不会有这个问题。作图R更是占优势,如果用ppt做韦恩图,花功夫又low不说,得到的图的质量也很有限。而R一行代码可输出各种格式的韦恩图,而且这行代码还可以反复使用。所以,尝到了甜头,更觉得自己应该好好学习下去。要知难而上,走过最坎坷的这段瓶颈期,期待未来的技术指数增长。