生物信息学与基因组学

读李霞老师《生物信息学》教材

2020-09-03  本文已影响0人  周运来就是我

第一次知道李霞老师是在2019年“数学、计算机与生命科学交叉科学青年学者论坛”上,详见:2019||数学、计算机与生命科学交叉科学青年学者论坛。在论坛上她的演讲是《数学在生物医学中的作用》,生动有趣,主要是能够恰如其分地overlap到数学和生物医学的点。后来就开始在网上搜关于她的资料:

了解到李老师是数学出身转到生物信息,也是国内早期从事和教授生物信息的老师之一。虽然到其门下读书几乎不可能了,但是总是在关注着生物信息第一梯队的老师的动态。前几天,在国内某知名生信大厂的二手群里,看到有前同事在出手一本生物信息教材——2010年出版的《生物信息学》。要知道那时候,该大厂也是本书出版后一年(2011)才成立的。10年来,该厂为我国培养了成百上千的高通量测序(生信,产品,运营,销售)人才。看到这个时间,看到李老师的教材,我觉得自己责无旁贷要收下本书了,在之前屯过:

刚好,也借此机会,一窥十年前生物信息的状态。在此,我们不禁要问,那时候学习生物信息的同学,现在都在哪呢?

如今(指2012年),李霞教授已是名符其实的桃李满天下。从2001年招收第一届研究生,到今天李霞教授已经招收了11届学生,培养硕士生54人、博士生35人,已毕业的45名学生绝大多数分配到中国科学院、清华大学、香港科技大学、同济大学等科研院所或重点高校工作。李霞教授一直坚持硕士研究生发表SCI收录影响因子2.0、博士研究生发表SCI收录影响因子5.0(或累计)的论文才能毕业,就是在这近乎苛刻的培养要求下,哈医大生物信息学院培养的学生个个功夫过硬,实力不凡。

目前国内越来越多的高校开始开设《生物信息》这门课了,坊间也有很多培训机构在做培训,据某大厂统计,2019年较2018年变化-30%。2020年新冠影响,又多了许多序列数据需要生物信息人员来分析。十年前,生物信息还只是一个科研院所的研究项目,十年后,生物信息已经是一个常见的工种:

所以能在一门学科的早期就开始教育和普及工作是很需要魄力的。

好了,让我们回到课本上来。

绪论
    生物信息学的兴起
    生物信息学在生命科学中的地位

这部分作者讲述了人类基因组计划的划时代作用:改变生物科学的研究范式。同时:

全书的重点也落脚在生物信息在人类复杂疾病中的应用上。这又回到我们之前的追问:NGS数据那么多,什么时候才能改善人类健康?2020的新冠,让我们看到了希望,NGS技术在早期的病毒序列解读,后期的防控筛查都起到了举足轻重的作用。

绪论是用来召唤梦想的。

生物信息学基础
    DNA、RNA和蛋白质序列信息资源
        核酸序列
        蛋白质序列数据库
        NCBI与EMBL-EBI
    双序列比对
        替换计分矩阵
        双序列比对算法
        数据库搜索
        比对的统计学显著性
        参数的选择
    多序列比对
        相似性与距离、计分与罚分、替换矩阵
        主要比对方法与软件
        局部比对、glocal比对、synthenic比对
        全基因组比对
        软件,参数,比对质量
    序列特征分析
        DNA序列特征分析
        蛋白质序列特征分析
        序列综合分析
    分子进化分析
        系统发生分析与重建
        核酸和蛋白质的适应进化
        分子进化与生物信息
    表达序列分析
        EST数据分析
        基因表达系列分析
    基因芯片数据分析
        常见的芯片平台与数据库
        基因芯片数据的处理
        差异表达分析
        基因芯片数据的聚类分析
        基因芯片数据的分类分析
        基因芯片数据其他分析
        常用表达谱分析软件

第二部分的生物信息基础,主要介绍了序列比对和表达数据分析模式。其实这个是永远不会过时的知识点,在
读后|| Encyclopedia of Bioinformatics and Computational Biology ABC of Bioinformatics
NGS通识第零讲||NGS通识
文章中,我们都提到过,生物信息处理的数据类型就那么几种:序列,矩阵,图像,文本,空间。所以序列的基本处理这个还是要懂的,如何评价两个序列的相似性?在算法上如何实现?这是生物信息的基本功,生物信息不是只会画个图,也不是只会安装软件,它不是。所以,关于生物信息我们还要学习很多数学和计算机的知识。

在看这一章的时候,恰巧也在极客时间上重温《数据结构与算法之美》,深感自己的底子之薄,生信的坑子之深:

在这里我们不去讲编辑距离,不去画动态规划的表,关于生信的算法我第一次接触的是
用隐马尔可夫模型做基因预测

功能基因组信息学
    基因注释与功能分类
        基因注释数据库
        基因集功能富集分析
        基因功能预测
    蛋白质分析与蛋白质组学
        蛋白质分析方法
        蛋白质组学数据的获取与分析
    蛋白质结构分析
        蛋白质的高级结构
        蛋白质结构数据库
        蛋白质结构预测
        基于结构预测蛋白质功能
        蛋白质结构异常与疾病
    转录调控信息学
        转录调控的高通量实现
        转录因子结合位点的信息学预测方法
        转录调控数据库
    生物分子网络
        生物分子网络概述
        生物分子网络分析
        生物分子网络的重构和应用
            基因表达网络
            基因调控网络
            蛋白质互作网络
            代谢网络
    计算表观遗传学
        基因组的DNA甲基化
        组蛋白修饰的表观基因组
        基因组印记
        表观遗传学数据库及软件

如果不是看过本书的出版时间,你完全看不出这是十年前的教材。因为讨论的主题就算放到今天依然是很新颖的,这就是闻道有先后吧。比如最近 比较火的冷冻电镜(Cryoelectron Microscopy),在本书中也有提到。就方法论来说,我觉得这部分的生物分子网络很有启发意义,目前的生物信息一般是分析序列结构和基因表达,但是生物过程往往是比较复杂的,所以网络的应用似乎是显而易见。

目前生物分子网路正应用在生物系统的许多方面,也在和新的算法一起给我们带来新的见解。

生物信息学与人类复杂疾病
    人类复杂疾病与计算系统生物学
        复杂疾病概述
        复杂疾病数据库
        疾病网络重构和计算系统生物学方法
    单核苷酸多态与人类疾病
        SNP分型技术与数据库资源
        基于SNP的复杂疾病遗传定位
        数量性状研究与SNP的系统遗传学分析
        SNP相关的集成软件工具
    miRNA与复杂疾病
        miRNA 与靶基因
        miRNA多态和复杂疾病
        miRNA 表达谱与复杂疾病
        miRNA 调控分子网络

这部分是本教材的落脚点,就像为之前的所有知识点找到了归属。所谓打铁还需自身硬,要把生物信息(数学与计算机和生命科学的结合)应用到揭示解决人类的健康上去,我们还有一段路要走,目前我们至少可以确定,这条路的基本方向是对的。

十年前我们分析基因芯片表达数据,十年后我们分析单细胞转录组表达谱;十年前我们分析SNP和MiRNA,十年后我们分析ecDNA;十年前我们摸索着前进,十年后我们满怀憧憬。

十年间,我们看到生物信息在测序方法,数据库建设,数据挖掘算法与软件等方面都有新的发展。2010-2020这十年依然是后基因组时代,后功能基因组时代。如今,我们可以在单个细胞水平上来分析DNA(基因组),RNA(转录组),蛋白质(组)及其互作。如果说十九世纪末二十世纪初,以细胞病理学为基础的医学模式,开始向分子医学转变。那么,随着单细胞技术的成熟,在生命科学的信息流中,分子医学(DNA,RNA,蛋白)将被单细胞统一起来,走向组织,器官(图谱),个体(精准医疗),群体(免疫)。

生物信息正在慢慢成为人类健康管理的技术基础。


本文参考了以下链接:
生物信息学国内学者TOPs【欢迎交流】
走在时代前沿的女科学家 ——记我国著名生物信息学家李霞教授
生物信息学专业就业方向
http://snap.stanford.edu/deepnetbio-ismb/ipynb/Human+Disease+Network.html
http://www.biols.cas.cn/xwdt/gsdt/201904/t20190419_5277844.html

上一篇下一篇

猜你喜欢

热点阅读