学习生信，先把书包扔到墙头外

2019-04-23 本文已影响79人 9d760c7ce737

不是每个人都需要学习生信的，任何一个可靠技能的获得，都需要花时间。所以，要么就彻底不要有这个念头，要么就尝试一下迅速放弃，要么就咬牙坚持过去。

我现在在坚持的路上，并且感受到我能走下去，这种感觉以前是没有的。尽管我有超过2000个小时的R语言使用经验，但是对于生物信息的上游分析，并不精通，好在，我手上了有了真实的测序数据，最近我花了很多时间，梳理了Linux，AWK，RNA-Seq的使用。我感觉，最困难的时候已经过去了。

总结一下就是：R语言学得快，是因为我有任务在身，是刚需，上游分析不会，是因为完全没有需求，直到自己测了数据才把所有的零散技能整合起来。所以，为了更快地进步，我又测了更多的数据，先把书包扔到墙头外。

生信的学习，进步会很快。

对于湿实验的同学而言，如果看到Western Blot的结果不好，调整一下后看到结果的时间大概要3天。但是，生信分析，大部分操作，一天能重复8次，这样一看，进步速度差别就在20倍。看看周围那些大神，都很年轻，那些做实验厉害的，年过三旬，这就是证据。

临床医生学习生信，功利性很强，经常有的担忧是，数据挖掘那么多年，到我这里，还有数据可挖么？从两个方面回答一下僧多粥少的问题。

第一，粥并不少。少的是idea。

GEO上的数据不计其数，TCGA的11000个病人的样本发表的高分文章也超过了100篇，利用TCGA数据库挖掘发表的文章，数量也不少。Idea才是重要的，从一开始的单存差异分析，到后来的驱动基因，从分子互作到模型构建，从突变负荷到免疫浸润，都是人想出来的Idea。

第二，粥还在增多。

GEO的数据在不断增长，因为测序实在是太便宜了。一个美国的TCGA就产生了这么多的数据，如此多的文章，那么中国如果有TCGA会怎样？印度的TCGA呢？所以，本质上，现在学习生信，是活在未来的人。TCGA的推动了科研的变革，从收集样本，到整合分析，到团队协作，其他各个国家应该有了一个好的范本，筹建自己国家的TCGA问题，难度不大。

TCGA很重要啊，产生了很多成果（不仅仅是发文章）：

如果看不清，回复“我要起飞”自助获取高清PDF。

昨天，我们国家的TCGA计划来了。

http://www.seqchina.cn/9429.html
叫中国肿瘤基因图谱计划（Cancer Genome Atlas of China，CGAC，不过朋友圈没有什么反应。首先启动的是乳腺癌，计划招收1000名乳腺癌患者，构建他们的基因表达图谱，人数跟TCGA的差不多。

现在的问题，不是测序后怎么分析数据，因为目前TCGA的文章提供了大量的范本，市场上积淀了大量的教程，只要会用R语言，未来使用这个数据肯定没问题。
问题是，我们国家的TCGA数据何时收集完成，在哪公布数据，普通村民能否使用。TCGA从开始到结束，大概用了10年。5-10年我能等，如果20年，只能自己的学生来分析了。

好了，如果你想趁自己年轻，积淀一些TCGA的知识为未来储备一下，可以看看下面的帖子了解一下，及时跟进，或者及时放弃，这是节约时间的最好策略。
如何获取数据
 把数据批量读入R语言
 分别提取mRNA和lncRNA
强烈推荐的下游分析，一定要看

官网发表的文章列表在这里：
https://tcga-data.nci.nih.gov/docs/publications/

Cell集团去年发布的那29篇文章，在这里：
https://www.cell.com/pb-assets/consortium/pancanceratlas/pancani3/index.html

我已经下载好了，微信公众号“果子学生信”回复“我要起飞”自助获取。

学习生信，先把书包扔到墙头外

生信的学习，进步会很快。

第一，粥并不少。少的是idea。

第二，粥还在增多。

昨天，我们国家的TCGA计划来了。

猜你喜欢

热点阅读