学习生信,先把书包扔到墙头外
不是每个人都需要学习生信的,任何一个可靠技能的获得,都需要花时间。所以,要么就彻底不要有这个念头,要么就尝试一下迅速放弃,要么就咬牙坚持过去。
我现在在坚持的路上,并且感受到我能走下去,这种感觉以前是没有的。尽管我有超过2000个小时的R语言使用经验,但是对于生物信息的上游分析,并不精通,好在,我手上了有了真实的测序数据,最近我花了很多时间,梳理了Linux,AWK,RNA-Seq的使用。我感觉,最困难的时候已经过去了。
总结一下就是:R语言学得快,是因为我有任务在身,是刚需,上游分析不会,是因为完全没有需求,直到自己测了数据才把所有的零散技能整合起来。所以,为了更快地进步,我又测了更多的数据,先把书包扔到墙头外。
生信的学习,进步会很快。
对于湿实验的同学而言,如果看到Western Blot的结果不好,调整一下后看到结果的时间大概要3天。但是,生信分析,大部分操作,一天能重复8次,这样一看,进步速度差别就在20倍。看看周围那些大神,都很年轻,那些做实验厉害的,年过三旬,这就是证据。
临床医生学习生信,功利性很强,经常有的担忧是,数据挖掘那么多年,到我这里,还有数据可挖么?从两个方面回答一下僧多粥少的问题。
第一,粥并不少。少的是idea。
GEO上的数据不计其数,TCGA的11000个病人的样本发表的高分文章也超过了100篇,利用TCGA数据库挖掘发表的文章,数量也不少。Idea才是重要的,从一开始的单存差异分析,到后来的驱动基因,从分子互作到模型构建,从突变负荷到免疫浸润,都是人想出来的Idea。
第二,粥还在增多。
GEO的数据在不断增长,因为测序实在是太便宜了。一个美国的TCGA就产生了这么多的数据,如此多的文章,那么中国如果有TCGA会怎样?印度的TCGA呢?所以,本质上,现在学习生信,是活在未来的人。TCGA的推动了科研的变革,从收集样本,到整合分析,到团队协作,其他各个国家应该有了一个好的范本,筹建自己国家的TCGA问题,难度不大。
TCGA很重要啊,产生了很多成果(不仅仅是发文章):
如果看不清,回复“我要起飞”自助获取高清PDF。
昨天,我们国家的TCGA计划来了。
http://www.seqchina.cn/9429.html
叫中国肿瘤基因图谱计划(Cancer Genome Atlas of China,CGAC,不过朋友圈没有什么反应。首先启动的是乳腺癌,计划招收1000名乳腺癌患者,构建他们的基因表达图谱,人数跟TCGA的差不多。
现在的问题,不是测序后怎么分析数据,因为目前TCGA的文章提供了大量的范本,市场上积淀了大量的教程,只要会用R语言,未来使用这个数据肯定没问题。
问题是,我们国家的TCGA数据何时收集完成,在哪公布数据,普通村民能否使用。TCGA从开始到结束,大概用了10年。5-10年我能等,如果20年,只能自己的学生来分析了。
好了,如果你想趁自己年轻,积淀一些TCGA的知识为未来储备一下,可以看看下面的帖子了解一下,及时跟进,或者及时放弃,这是节约时间的最好策略。
如何获取数据
把数据批量读入R语言
分别提取mRNA和lncRNA
强烈推荐的下游分析,一定要看
官网发表的文章列表在这里:
https://tcga-data.nci.nih.gov/docs/publications/
Cell集团去年发布的那29篇文章,在这里:
https://www.cell.com/pb-assets/consortium/pancanceratlas/pancani3/index.html
我已经下载好了,微信公众号“果子学生信”回复“我要起飞”自助获取。