基因组研究相关名词解释
测序过程相关名词
接头 (Adaptor):特定的一段DNA序列,在构建测序文库时连接在片段化的DNA末端,与测序槽中固定的接头序列匹配,从而固定待测序列在测序槽中的位置。
测序读长:不同的测序平台所能获得目的序列的长度各不相同,当待测序列的长度超过测序仪的最大读长时,得到的结果准确性会大幅降低。
测序文库:高通量测序技术具有测序读长的限制,因此在进行测序之前,需要将提取得到的样品DNA打断成为符合测序仪器读长的小片段,经过片段长度筛选、添加接头和定量,即构成了能够用于高通量测序的DNA文库。
单端测序 (Single-end):在构建DNA文库时,将测序引物连接在DNA片段的一端,然后在末端添加接头序列,在进行上机测序时只能从序列的一端开始进行测序。
双端测序 (Paired-end):在构建DNA文库时,在DNA片段的两端均连接测序引物和接头,在进行上机测序时可以分别从序列的两端进行测序,从而使得测序读长增加为原本的两倍左右。
测序深度:测序得到的总数据量与待测基因组大小的比值,假设待测基因组大小为100Mb,测序深度为30X,那么最终得到的数据量为3G。
Fastq格式:保存测序仪得到的核酸序列及其测序质量信息的标准格式,每条序列由4行文件组成,第一行由"@"开始,后面跟着序列的描述信息;第二行是序列的碱基排列顺序;第三行由"+"开始,后面也可以跟着序列的描述信息;第四行是与第二行序列相对应的各碱基质量评价结果。
质量得分:即Fastq格式第四行的信息,Q=-10log10(p),p为碱基错误概率,也就是Q=20时,碱基错误概率为0.01。
Q20 (%):碱基识别准确率在99%以上的碱基所占比例。
Q30 (%):碱基识别准确率在99.9%以上的碱基所占比例。
N (%):测序结果中模糊碱基所占的比例。
质量控制:按照指定的标准对测序得到的序列进行筛选,去除不合格序列的过程。
Raw data:测序仪下机得到的原始数据。
Clean data:原始数据经过质量控制后,得到的可以用于后续分析的数据。
基因组de novo测序相关名词
基因组Survery:在正式进行基因组测序之前,需要先进行小规模的测序以评估目的基因组的大小、重复序列含量和复杂度,从而确定正式基因组测序的数据量以及测序和拼接策略,这种评估基因组基本信息的过程即是基因组Survery。
Read:高通量测序平台产生的序列即为Reads,每一条序列称为一条Read。
Contig:根据Reads间的重叠区域,使用拼接软件拼接得到的长序列称为Contig。
Scaffold:基因组测序过程中,通过Reads拼接得到Contigs之后,还需要依赖其它测序文库的支持,确定这些Contigs之间的顺序关系,确定顺序的Contigs构成的序列称为Scaffold。
Contig N50(90):将所有拼接得到的Contigs按照长度从长到短排列,将序列长度按照该顺序依次相加,当相加的长度达到所有Contigs总长度的50% (90%) 时,最后一条Contig的长度,该指标用来评估基因组拼接的质量。
Scaffold N50(90):将所有拼接得到的Scaffold按照长度从长到短排列,将序列长度按照该顺序依次相加,当相加的长度达到所有Scaffolds总长度的50% (90%) 时,最后一条Scaffold的长度,该指标用于评估基因组拼接的质量。
基因家族:由一个共同的祖先基因经过重复和突变产生的、具有相似结构和功能的一组相关基因。
基因组重测序相关名词
SNP (Single Nucleotide Polymorphisms,单核苷酸多态性):在基因组上单个核苷酸的变异,一般指变异频率大于1%的单核苷酸变异包括置换、颠换、缺失和插入4种类型。
Indel:不同个体基因组间小片段的插入或缺失。
染色体结构变异 (SV):是染色体变异的一种,导致变异的原因可能是遗传因素,也可能是外部条件刺激,主要分为缺失、重复、倒位、易位等类型。
全基因组重测序:对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。由于已知该物种的基因组,因此个体的测序数据量无需基因组de novo测序那么大,同时该技术无需基因组拼接,只需与参考基因组比对,因此应用二代测序技术即可完成。
全基因组关联分析 (GWAS):选取具有不同表型特征的的多个同种生物个体,对每个个体分别进行全基因组重测序,与已有参考基因组进行比对后,检测全基因组范围内SNP、InDel与SV等变异类型,利用检测到的变异信息与关注的表型数据进行关联分析,找出与关注表型相关的SNP位点,定位复杂性状功能基因。
简化基因组测序 (Reduced-Representation Genome Sequencing,RRGS):根据目标物种的基因组信息和研究应用目的,通过生物信息学模拟,设计分子标记的开发方案,筛选特异性长度片段,构建简化的有全基因组代表性的测序文库,通过高通量测序进行分子标记的开发,进而应用于后续的科研或生产实践。
外显子测序:外显子测序是指利用序列捕获技术将全基因组外显子区域DNA捕获并富集后,进行高通量测序的基因组分析方法,外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大优势,但无法研究基因组结构变异,如染色体断裂重复等。
细菌基因组相关名词
细菌基因组框架图:采用全基因组鸟枪法策略,构建小片段文库,使用第二代测序技术进行测序,最后拼接得到细菌的基因组,基因组中含有一定的gap,价格便宜,但是得到的细菌基因组只能满足常规基础研究的需要。
细菌基因组精细图:构建不同片段长度的测序文库,使用二代结合三代的测序技术进行测序,相比于框架图的测序,提高了测序深度,同时优化了基因组组装策略,虽然在拼接得到的基因组中依然含有gap,但是已经能够得到几乎完整的基因组,是进行细菌基因组研究应用最为广泛的测序策略。
细菌基因组完成图:在细菌基因组精细图的基础上,应用第一代测序技术填补精细图中存在的gap区域,同时对基因组的拼接进行验证,得到完全没有任何gap的完整细菌基因组。
相似性和同源性
在进行基因组数据分析时,最重要的一步就是与参考基因数据库进行比对注释,根据数据库比对结果,确定基因组中所包含基因的类别和功能。
数据库比对结果中最重要的评价指标就是相似性 (Similarity),相似性是指序列比对过程中用来描述检测序列和目标序列之间相同顺序DNA碱基或氨基酸残基所占的比例。
相似性在蛋白质序列比对中,有时也指两个残基是否具有相似的特性,如侧链基团的大小、电荷性、亲疏水性等。此外,相似性概念还常常用于蛋白质空间结构和折叠方式的比较。
相似性是数据库比对的直接结果,但数据库比的主要目的是寻找同源序列。同源序列是指从同一个共同祖先经趋异进化而形成的不同序列。
当两条序列的相似性高于50%时,比较容易推测这两条序列可能是同源序列;而当相似性低于20%时,就难以确定或者根本无法确定其是否具有同源性。
相似性和同源性 (Homology) 是两个完全不同的概念,相似性是一个准确的量化指标,具有明确的数值 (0%-100%),而同源性是一个二维性质,只具有“有”和“无”两种情况。
“具有80%同源性”或“这些序列高度同源”等说法,都是不正确的。
CDS与ORF
开放阅读框 (Open reading frame, ORF):在DNA中,从一个起始密码子开始到一个终止密码子结束的一段碱基序列。
编码序列 (Coding sequence, CDS):在DNA中,能够转录合成信使RNA并能翻译合成蛋白质的区域。
ORF和CDS的区别:
不是所有得ORF都能表达合成出蛋白产物;
CDS必定是ORF,但可能不是单一的ORF,也可能包括很多ORF;
不是所有的ORF都是CDS;
ORF是理论上能够翻译形成蛋白质的区域,但是不一定确实能够产生蛋白质。
CDS是一定能够转录形成mRNA的区域。
进化相关名词解释
Synteny:physical co-localisation of genetic loci and/or genes on the same chromosome and/or linkage group within an individual or genome.
同线性:一个个体或物种基因组的不同基因位点位于相同染色体的相同位置的现象。
Conserved and/or shared synteny:preserved co-localisation of genetic loci and/or genes on chromosomes and/or linkage group of different species, also referred as macrosynteny (based on large portions of a chromosome) and microsynteny (based on only a few genes at a time).
保守同线性:在不同物种中具有相同的基因同线性的现象,也就是在相差较远的生物中存在的最为相似的基因区域。
Collinearity:a more specific form of conserved synteny, requires co-localisation of genes on the same chromosome within an individual or species with common gene order.
共线性:是一种特殊的保守同线性,只指不同物种基因组中同源基因以相同顺序排列的现象,两个物种之间的共线性程度可以作为衡量它们之间进化距离的尺度。
Ortholog:Orthologs arise by speciation, genes in different species that originated from a common ancestor.
直系同源:不同物种中来源于同一个祖先的基因。
Paralog:Paralogs arise by duplication, genes in an organism that are duplicated to occupy two different positions in the same genome.
旁系同源:一个物种内由同一个祖先基因通过复制而产生的基因,其在基因组中所处的位置不同。
表观遗传学
孟德尔遗传定律认为,个体表型特征的不同是由于等位基因的差异造成的,但很多生物体的表型差异并不能完全由孟德尔定律来解释,例如,同卵双胞胎具有相同的基因型,但往往会出现不同的表型,这就是说,可能有除等位基因差异外的另外一种因素对决定生物体的表型起作用,因此,1942年由C. H. Waddinoton提出了表观遗传学的概念。
DNA甲基化是最常见的一种表观遗传修饰现象,DNA甲基化通常抑制基因表达,去甲基化则诱导了基因的重新活化和表达,这种DNA修饰方式在不改变基因序列前提下实现对基因表达的调控。
细菌的DNA甲基化以腺嘌呤甲基化 (6mA) 为主,而真核哺乳动物和植物主要是胞嘧啶甲基化 (5mC)。
全基因组甲基化测序 (WGBS):是一种针对真核生物DNA甲基化研究的方法,利用重亚硫酸盐将基因组中未发生甲基化的C碱基转换成U碱基,在PCR扩增后进一步变成T碱基,因而能够与原本具有甲基化修饰的C碱基区分开来,再结合高通量测序技术,特别适用于绘制单碱基分辨率的全基因组甲基化图谱。
蛋白质与核酸相互作用研究
开放染色质区域鉴定可以获得转录前调控信息,所有在该条件下发生转录的基因以及顺式调控元件均可以检测到,再配合转录组测序以获得相应的转录本信息,则可以找到相关基因的上游调控序列,整体分析该特定时空下的调控网络。
染色质免疫共沉淀测序 (Chromatin Immunoprecipitation sequencing,ChIP-Seq):染色质免疫共沉淀与高通量测序相结合的技术,采用特异性抗体对目标蛋白进行免疫沉淀后,分离与其结合的基因组DNA片段,再通过高通量测序与数据分析,在全基因组范围内寻找目标蛋白的DNA结合位点,并且可以基于多个样品进行差异比较。ChIP-Seq可以用于研究蛋白质与DNA的相互作用、特定转录因子靶基因的分析和鉴定、组蛋白的各种共价修饰 (如磷酸化、乙酰化、甲基化、泛素化等)。
RNA免疫共沉淀测序 (RNA Immunoprecipitation sequencing, RIP-Seq):研究RNA-蛋白质复合物的技术,利用目标蛋白的抗体沉淀含目标蛋白及其相关RNA的复合物,再对RNA-protein复合物进行纯化,并分离、提取RNA。之后利用高通量测序技术,检测RIP实验获得的RNA序列信息,确定RNA-protein复合物中RNA的种类、探究目标蛋白对下游基因的转录后调控机制。RIP-Seq可以用于解决蛋白质与RNA的相互作用、蛋白质调控RNA稳定性和RNA编辑、蛋白质与RNA形成功能复合物等科学问题。
甲基化RNA免疫共沉淀测序 (Methylated RNA Immunoprecipitation sequencing,MeRIP-seq):基于抗体特异性结合甲基化修饰的碱基,以RNA免疫共沉淀富集甲基化修饰片段为基础,通过高通量测序平台,在全转录组范围内研究发生甲基化的RNA区域。MeRIP-Seq主要用于研究核酸修饰、RNA的转录后调控机制、RNA甲基化修饰的生物学功能。
泛基因组
泛基因组 (Pan-genome):研究同一物种的不同个体基因组序列的总和,包括核心基因组 (Core Genome) 和非必需基因组 (Dispensable Genome)。在2005年由Tettelin等人提出,当时主要是针对微生物进行研究,直到2009年,研究人员应用全新的基因组组装方法研究了多个人类个体基因组,发现了个体独有的DNA序列和功能基因,并提出了“人类泛基因组”的概念,目前泛基因组的研究覆盖到各种动植物领域,包括真菌、鸟类、陆生水生动物、昆虫、植物等。
核心基因组是指在同一物种的所有个体中均存在的基因组序列,一般与物种生物学功能和主要表型特征相关,反映了物种的稳定性。
非必需基因组是指仅在单个样本或部分样本中存在的基因组序列,一般与物种对特定环境的适应性或特有的生物学特征相关,反映了个体的特性。
泛基因组测序:运用高通量测序技术,针对不同但又相互关联的个体材料进行不同深度的测序及组装,构建泛基因组图谱,区分核心基因组和非必需基因组,丰富该物种的遗传信息,并确定特定基因与生物表型的关系。
喜欢更多分子生物学、高通量测序和生物信息分析文章,搜索并关注我的微信公众号“红皇后学术" (ID:zzlphs2516)。