Biostar handbook学习笔记四

2017-11-12 本文已影响7人简书蚕账号

目前学习到的关于生物数据及数据库的基本知识有：

常用数据格式:
fasta, fastq, gff, GenBank

常用序列数据库:
美国国立生物技术信息中心(NCBI)
欧洲生物信息学中心(EBI)
DDBJ

常用基因功能数据库:
基因本体数据库（Gene Ontology）
京东基因与基因组百科全书（KEGG）
Interpro蛋白功能数据库

常用基因组数据库:
UCSC基因组浏览器
Ensembl 基因组注释数据库

Fasta格式:

描述行
“>” 分隔符
一般50-100个字符每行
没有标准的扩展名

Fastq格式：

与fasta格式类似
一条序列一般占用四行
序列和质量值各占一行

GenBank格式：

重要参数	含义
LOCUS	序列名称
ACCESSION	序列编号
KEYWORDS	与序列相关的关键字
SOURCE	序列来源的物种名
ORGANISM	序列来源的物种学名和分类学位置
COMMENT	相关序列的注释信息
FEATURES	序列特征表的起始
ORIGIN	序列

数据的获取

通过学习黄勇平老师的简书文章，掌握了EDirect和Aspera两个小工具。

Aspera工具的安装与使用：
$ wget http://d3gcli72yxqn2z.cloudfront.net/connect/bin/aspera-connect-3.5.1.92523-linux-64.tar.gz
$ tar zxf aspera-connect-3.5.1.92523-linux-64.tar.gz
$ sh aspera-connect-3.5.1.92523-linux-64.sh
$ echo 'PATH=$PATH:~/.aspera/connect/bin/' >> ~/.bashrc
$ source ~/.bashrc

在安装miniconda，创建了如bioinfo虚拟环境后，并且安装biostar课程软件后，即自带了EDirect软件。

常用的综合数据库

INSD：国际核酸序列数据库（International Nucleotide Sequence Databank）。由日本的DDBJ、欧洲的EMBL和美国的GenBank三家各自建立和共同维护。

EMBL库：欧洲分子生物学实验室的DNA和RNA序列库。
http://www.ebi.ac.uk/embl.html

GenBank：美国国家生物技术信息中心（NCBI）所维护的供公众自由读取的、带注释的DNA序列的总数据库。http://www.ncbi.nlm.nih.gov/Web/Genbank/

DNA Databank of Japan (DDBJ)，日本核酸数据库。
http://www.ddbj.nig.ac.jp/

GSDB是由美国国家基因组资源中心（NCGR）维护的DNA序列关系数据库（Genome Sequence DataBase）。http://www.ncgr.org/gsdb/

TIGR DATAbase,是世界上最大的cDNA数据库，还有大量的EST序列和人类基因索引（HGI）。http://www.tigr.org/tdb/hcd/overview.html
�