生物学信息学札记-阅读笔记
生物学信息学札记
教程地址:http://ibi.zju.edu.cn/bioinplant
第一章 生物信息学通论
第一节 生物信息与生物信息学
一、迅速膨胀的生物信息
初级数据库:由实验获得的大量核酸序列和三维结构数据
二级数据库:原始数据分析而来的诸如二级结构、疏水位点和功能区数据;些由核酸数据库序列翻译而来的蛋白质序列。
二、生物信息学的概念
基因组信息学、蛋白质空间结构模拟以及药物设计构成了生物信息学的 3 个重要研究组成部分。
具体内容上看,生物信息学应包括这 3 个主要部分:
(1)新算法和统计学方法研究;
(2)各类数据的分析和解释;
(3)研制有效利用和管理数据新工具。
生物信息学最初更多地是关注数据库,那些数据库存储着来自基因组测序计划完成的序列数据。目前生物信息学已今非昔比,它所关注的是各类数据,包括生物大分子的三维结构、代谢途径和基因表达等等。
生物信息学最使人们感兴趣的是它利用计算方法分析生物数据,如根据核酸序列预测蛋白质序列、结构、功能的算法等。虽然这些预测还不是非常精准,但是当可靠的实验数据还无法得到的情况下,这这一预测可以作为一盏路灯,指示你应如何开展实验。
另外的通假名字“计算生物学”,其实后者范围更广。
美国国家生物技术信息中心(NCBI)网站数据分析工具网页。图中包括 BLAST、COG、ORF
finder、Electronic PCR 等工具软件。
三、对生物信息学的不正确认识
(1)“人人可以从事生物信息学研究”。
实际:高性能计算资源昂贵,先进的软件包付费。
(2)“你最终还是需要具体的实验”。
实际:可以是纯数据验证
(3)“生物信息学是门新技术,但只是一门技术而已”。
实际:有许多算法,难题(生物、计算),内涵很丰富。
第二节 生物信息学发展简史
-
萌芽期(60-70 年代)
以 Dayhoff 的替换矩阵和 Neelleman-Wunsch算法为代表,它们实际组成了生物信息学的一个最基本的内容和思路:序列比较。
-
形成期(80 年代)
以分子数据库和 BLAST等相似性搜索程序为代表。
以 BLAST、FASTA 等为代表工具软件和相应的新算法大量被提出和研制,极大地改善了人类管理和利用分子数据的能力。
-
高速发展期(90 年代-至今)
以基因组测序与分析为代表。基因组计划,特别是人类基因组计划的实施,分子数据以亿计;
Phred-Phrap-Consed 系统软件包自 1993 年出现,1995 年已广泛应用于鸟枪法测序中序列的碱基识别、拼装和编辑等
-
相关期刊
-
英国剑桥大学出版社出版《 Bioinformatics 》,发表计算分子生物学、生物数据库和基因组生物
信息学方面的文章 -
《Applied Bioinformatics》
-
《Briefings in Bioinformatics》
-
《Journal of bioinformatics and computationalbiology 》
-
《 Genomics, proteomics & bioinformatics 》
-
网上生物信息学杂志《BMC Bioinformatics》
-
第三节 基因组时代:生物信息学的应用与展望
实验室的每一项技术,从简单的克隆、PCR 到基因表达分析都需要在计算机上进行
数据的处理,这些工作均需要理解 DNA 和蛋白质分析工具的基本算法。
生物信息学研究者基本要求
- 没有分子生物学背景将到处碰壁。
- 真正理解中心法则
- 熟悉几个主要的分子生物学软件包,如测序分析,分子模型
- 熟悉命令行操作
- 掌握编程语言,如c/c++,python等
生物信息学核心问题
数据库的开发:
如何整合和最有效地查询来自诸如基因组 DNA 序列、mRNA 表达的空间和时间模式(spatial and temporal pattern)、蛋白质结构、免疫反应、文献记录等数据。
从诸如组装完成的核酸或蛋白质序列中识别模式的算法、用于相似性比较或系统发育构建的序列列线(alignment)、线性序列或高维结构的模序(motif)识别和基因表达的共有模式等等。
未来展望
在后基因组时代(postgenomicera),人们期待在对生物发育机理、代谢过程和疾病认识方面有所突破。可以肯定地预言,生物信息学研究将对我们的一些认识产生根本性改变,如基因表达调控、蛋白
质结构预测、比较进化学和药物开发等领域。