高通量测序技术极简介绍
我们在介绍公共数据库的时候,经常会提到RNA-seq;chip-seq;甲基化芯片的东西。对于不了解高通量测序的同学而言,不是很清楚这些都是什么东西。这里就很简单,目的性极强的介绍一下。
测序技术分类
高通量测序技术主要还是基于二代测序来进行检测的。二代测序的目的还是来检测核苷酸(ATCG)序列。基于这个原理,我们对于高通量的检测主要还是DNA/RNA得检测。对于蛋白检测的话,目前只要还是通过质谱来做的。我们可以套用ENCODE数据库的介绍图来先大致的了解一下具体的测序技术有哪些。

上面的图主要还是按照基因编码关系来进行介绍测序技术的。这一次,我们就挑几个在数据库当中经常用到的测序技术来进行简单的介绍。主要目的还是为了让大家在以后用数据库的时候,明白数据库里面数据的原理。
空间基因组(Hi-c)
我们之前对于基因的研究主要还是停留在基因编码的中心法则的线性结构上。但是对于细胞的而言。人体细胞不是一个平面结构的,染色体之间也是存在一些重叠的。进而也会影响彼此相互作用关系。基于这个考虑就有了Hi-C(High-through chromosome conformation capture)检测方式。
Hi-C的主要是以细胞核为研究对象,通过高通量检测的方式来反应整体细胞核内的DNA的空间关系。

转录调控
基本介绍
转录调控主要还是通过chip-seq来进行检测的。我们知道chip实验是用来研究蛋白-DNA的相互作用的。我们利用一个目标蛋白,通过chip实验可以获得和这个蛋白相互作用的DNA序列。而chip-seq就是对获得的这些DNA序列进行测序,这样我们就知道所有和这个蛋白结果的序列是什么了。进一步就知道这个蛋白可能调控哪些基因了。

我们之前介绍的转录调控的网站很多都是基于很多转录因子做的chip-seq的数据来进行分析的。例如我们做CTCF这个转录因子的chip-seq。那就能知道这个蛋白对哪些序列具有调控作用。
另外对于一些组蛋白修饰的表观遗传的研究。也是基于chip-seq来分析的。不同的也就是把目标蛋白从转录因子换成了组蛋白修饰蛋白(H3K4me1等等)。
数据结果理解
对于chip-seq的数据结果,我们只能是能到说这个蛋白结合哪些序列,通过序列的注释,可以知道这些序列是位于什么基因的什么位置,比如结合的序列位于TP53的启动子区。至于说结合后影不影响这个基因的表达。那就不是chip-seq关心的事情了。
对于数据结果的可视化的话,可以通过基因浏览器来观察chip-seq对于一个基因的调控。例如下图这个。上面的线段代表基因的位置,下面的各个山峰一样的东西,代表组蛋白修饰的峰值,有峰的就代表这段区域受到调控,没有的则说明没有调控。
另外对于chip-seq的数据分析,我们都可以获得这个蛋白的结合位点(motif)。

Chip-seq/ATAC-seq/RIP-seq
随着技术的更新,目前除了chip-seq的数据,还出现了ATAC-seq以及RIP-seq。这些测序技术在数据分析的核心原理上区别没有那么大。
其中ATAC-seq也是来反应转录调控的信息,但是ATAC-seq的反应的是全基因组范围内存在的转录调控的的位置(不区分是什么结合蛋白);chip-seq则是先是确定蛋白然后在寻找这个蛋白的结合位置。
之前也说过chip-seq主要是来反映蛋白-DNA的结合信息的;RIP-seq则是来反应蛋白-RNA的结合信息的。通过RIP-seq的分析我们可以了解转录后调控的结果。
表达变化
刚才提到chip-seq的结果,只能说明是否存在结合。这个适合于研究一个基因的调控关系。由于基因的表达的改变才是最终导致人体表型发生变化的原因。所以我们最终还是要研究基因的表达变化的。
表达数据分类
对于基因表达的检测就不限于二代测序了,同时也就不局限于核苷酸的变化了。这里我们把一个数据当中数值存在大小关系那就可以算作是表达数据。例如一个数值是50;另外一个是5。那么50就是比5大。基于这个定义的话,我们可以把:表达谱芯片;RNA-seq;蛋白谱数据;甲基化芯片都可以算作表达的数据。
表达数据格式
表达的数据,到最后都可以生成一个一个矩阵数据(长方形数据)。拿表达谱芯片距离,矩阵当中的每一个数字就代表某一个基因在某一个样本当中的表达量。

对于RNA-seq而言,会产生三种不同的数据格式。分别叫做count; fpkm; tpm。但是如果我们做的是芯片数据就没有这样的数据格式。如果想要知道具体是什么意思的话,可以百度,有很多介绍的。这里也就单纯的count一般是用于做差异表达分析的,如果要做一些基因表达和病理参数之间的分析,推荐使用TPM,如果没有可以使用FPKM。
后记:
基于二代测序的技术形成的技术主要还是分三个分支,WES/WGS;RNA-seq;chip-seq。关于WGS主要还是来检测DNA序列上的突变;SNP以及拷贝数变化的,这个我们没有做详细的介绍。剩下的两个chip-seq主要是用于观察蛋白对于核苷酸的调控关系的。而RNA-seq则是来观察基因的表达的。至于Hi-C,只是因为最近比较火,也就单独的拿出来说了一下。
欢迎关注公众号:数据库百科,一个介绍医学科研相关数据库使用的公众号
