外显子测序
欢迎关注微信公众号:oddxix
1.相关名词
-
外显子组(exome)是一个物种基因组中全部外显子区域的总和,在人类基因中大约有180,000外显子,占人类基因组的1%,约30MB,包含了约85%的致病突变。外显子是基因行使其功能最直接的体现。因此,通过高通量测序技术进行外显子组测序,可以直接发现与蛋白质功能变异相关的遗传突变。
-
外显子测序(Whole Exome Sequencing,WES)是利用探针杂交富集外显子区域的DNA序列,然后通过高通量测序,主要识别和研究与疾病、种群进化相关的编码区及调控区域(Untranslated Regionds,UTR)相关遗传突变的技术手段。
-
捕获效率:指比对到目标区域的有效数据量占总的数据量的比例。
-
覆盖度:目标区域被覆盖到的比率,是客户较为关心的指标。
-
有效测序深度:实际测序数据量 * 捕获效率 / 捕获区间
-
SNP:Single Nucleotide Polymorphisms,单核苷酸多态性,指在基因组上单个核苷酸的变异,包括转换、颠换、缺失和插入。
-
Indel:插入和缺失突变。
-
CNV:Copy number variations,基因拷贝数变异。
-
SV:structure variations,结构变异。
-
LOH:loss of heterozygosity,杂合性丢失。
-
Somtic mutation:体细胞突变,广泛采用外显子测序技术检测。
-
Germline mutation:即遗传自父/母的突变,胚胎时既已形成,多采用全基因组测序检测。
2.研究对象
-
正常人群研究
-
遗传病和罕见病研究
-
复杂疾病(癌症)研究
3.常见样本
3.1样本组成
• 配对样本(matched pairs)
• 群体病例和群体正常样本(Cases and unmatched controls)
• 家系样本(Family trials)
• 原位癌和转移癌样本(In situ carcinoma and metastatic carcinoma)
3.2取样方式
• 癌症组织和癌旁未受影响的正常组织
• 疾病组织和自身血液样本
• 家系样本可以通过抽血研究孟德尔遗传病
• 取样时间:不能经过化疗放疗和药物治疗,即化疗放疗之前。
• 保存方式:液氮冻存或-80 冻存 干冰运输
• 取样大小:组织大约黄豆粒大小,血液2ml以上
• 备注:石蜡切片样本也可以做,先看预实验的结果
4.测序平台
4.1HisSeq 4000
HiSeq 4000利用Illuina测序系统所使用的边合成便测序成熟技术,最大限度降低了掺入偏好性,并大大降低了原始错误率,每次运行(3.5天)通量高达1.5Tb,可以在更短的时间内以更多的测序深度完成更多样品的检测。
HiSeq 40004.2HisSeq X 10
HiSeqX Ten由10台HiSeqX测序仪组成,是定位为“测序工厂”模式的系统,适合运行于大型基因组测序中心,为各类生命科学和生物医学研究提供海量、高效率的测序服务,每次运行仅需要3天时间,即可产出高达1.8Tb的数据。
HisSeq X 104.3测序过程中产生的冗余数据原因
(1)在杂交捕获过程中,与目标序列同源的序列也会被捕获到,且捕获到的目标序列会携带一部分突出目标范围之外的序列,这一部分将不计入测序的有效测序深度。
(2)在建库过程中PCR扩增而造成的Duplication,通常选择留下数据质量较高的子分子,最后是测序平台在读取序列时会因为重复读取而产生冗余序列。
4.4 推荐测序方案
• 配对样本:推荐5对以上,测序深度推荐大于50X。
• 大规模病例和对照样本:>500,全基因组重测推荐46X,全外显子组重测序推荐1030X。
• 家系样本:须有正常家系对照,推荐测序深度50X以上。
• 测序平台推荐HiSeq X ten
外显子测序主要适用于肿瘤易感性、致病机理、癌症异质性、转移和复发以及药物疗效研究。其中癌症异质性需要高深度测序,建议200X以上有效深度,FFPE样品建议200-300X对应的数据量,需要尽量全面、准确地检测肿瘤组织发生的所有突变信息,所以测序深度需要尽可能高,以检测低丰度突变位点。ctDNA建议500X及以上有效测序深度,用于检测Somatic 突变以及频率来判断ctDNA的存在和水平,从而反应肿瘤负荷等信息。##5.捕获芯片
目前主流的捕获试剂盒有Agilen 公司的SureSelect,Illuina公司的Nextera和Roche的Nimble Gen为主,另外还有Life的Ion AmpliSeq TM Exome Kit,以下是捕获试剂盒的各项指标的介绍:
5.1 Agilent t SureSelect Human All Exon
-
产品线丰富,可用于在单个试管中捕获从小于200 Kb 到大于 50 Mb 大小范围内的靶向序列
-
可利用安捷伦的eArray 在线设计工具,定制基于原人全外显子试剂盒的SureSelect 靶向序列富集产品
-
除了可以支持Illumina系统的单末端和双末端测序以及indexing方案外,还支持SOLiD系统的片段文库测序、双末端测序和barcoding方案
5.2 NimbleGen SeqCap EZ Library
-
数据可靠:用内部质控探针来指示整个系统的运行情况,基于已知的独特基因组位点,计算富集倍数。
-
高均一性、高覆盖率:对指定区域采用advanced repeat masking方法设计探针,保证了很好均一性(uniformity)和覆盖率(coverage),可以有效捕捉到每个靶向序列,帮助用户对目标区域进行精确细致的分析,从而有效检测SNP突变。
-
高度灵活性:捕获序列可以是连续的基因组序列,或者是成千上万的独立位点或外显子序列;并且可对接多家二代测序平台。
5.3 Illumina’s TruSeq Exome Enrichment
-
简单、可扩展的流程:预混合的试剂加上最多能处理96个样品的平板,可高度自动化,以便达到更高的通量。
-
高效率和全面的覆盖度:利用95 bp的寡核苷酸来靶定大约62 Mb的外显子组序列,覆盖最新RefSeq的91%(2010年9月hg19 Build)以及2010年9月发布的CCDS(合作保守编码序列)的95%。
6.数据分析
具体的分析流程会在后面详细介绍,暂时不赘述。
6.1分析流程
image6.2质控
6.2比对
6.3去重
6.4重校正和重比对
6.5预测SNP和indel
6.6突变分析
体细胞突变与注释 突变率和突变类型的分析 显著基因分析 信号通路分析 拷贝数变异6.7注释分析
7.外显子测序优劣
7.1外显子测序优势
• 人类85%的疾病位点位于编码区域
• 外显子组可以提供更深的测序深度
• 外显子组花费更低
7.2外显子测序劣势
在WES的数据分析中,因测序量仅为整个基因组的1%~2%,所以对基因组的结构变异是不敏感的;而WES中杂交捕获过程是一个具有偶然性的过程,会造成读取的reads数忽高忽低,因此对CNV也不是很敏感,且外显子测序对小片段的拷贝数的变异本身就不太敏感,但对于大片段拷贝数,如5M以上还是可以进行深度测序。
8.各测序公司服务
image华大疾病信息分析内容
image华大肿瘤信息分析内容
image诺禾疾病基因组学
image诺禾癌症基因组学
实质分析内容都差不多,只要图好看就行。不过可以以此针对性学习。
转载请注明出处:oddxix
简书作者:oddxix
微信公众号:oddxix
如果觉得写的不错记得点个赞哦嘻嘻_~