读《生物信息数据库建设使用与管理指南》有感
随着国内生物信息学的发展,目前在十几个主要的生命科学科室都建立了自己的生物信息团队,也形成了以NGS技术为代表的生物信息科技服务产业,自然地,他们也有生物信息团队。从早期的C,perl到如今的python和R,这些计算机语言的应用为我们揭示生物学问题提供了新的语言、工具、手段。当然,我们看到生物信息作生命科学的基本配置正在成为常态,各个实验室也还在慢慢培养和配备自己的生物信息人员、硬件、软件。
高通量单细胞 生物信息分析环境搭建.坦率地说,这不是终点,甚至不是起点的终点,可能只是起点的起点。我们知道要把生物学问题记录清楚,说明白,呈现出来,只有一个pipeline往往是不够的。如果我们已经有了生物信息流程,除了做一些数据的分析工作之外,我们可以考虑做一些技术积累把我们已经了解的生物学现象用技术沉淀下来。我们要改变花了一大笔金钱和人力物力最后把数据提交到一个我们没有话语权的地方。另一方面,随着数据的积累我们也要思考如何管理和挖掘数据,进一步增加我们对生命现象的理解,而不是一个submit
了事。
我们可喜地看到,我们这在国建生物信息数据库已经不是早些年的一穷二白,我们看到:
https://www.cngb.org/index.html
我们看到:
https://bigd.big.ac.cn/?lang=zh
我们看到:
http://gepia.cancer-pku.cn/
我们看到:
http://bis.zju.edu.cn/HCL/gallery.html
同时,我们还应该看到我们对生物信息数据利用率还是那样的低,我们拥有全球测序通量最高的测序公司,基于我们的人口基数,我们拥有大量的临床病症数据,但是目前我们还没有形成可以和NCBI(美国),EBI(欧洲)平行的数据库。
生物信息数据的建设不只是国家基因组所的事情,我们围绕一个具体的生物学问题,为了自用也好,开源以供同行使用也好,数据库作为一种底层的技术是十分必要的。我们还记得十几年前,某个单位测了一个物种的基因组就有可能获得该物种生物学问题的话语权,进而改变学术格局。我们还应该记得近两年某单位测了某物种的细胞图谱就可以奠定在其在该物种研究领域的新的学术空间。这个赛道就唤做:学术竞赛。
至少,这些测序公司可以依托其产出的交付体系整合便于我们提交的数据库,让我们的吞吐量落在实处。所以,你们家生物信息团队配备数据库工程师,前端工程师,PHP工程师了吗?
生物信息数据库建设使用与管理指南