癌症基因组重测序第二讲
一、肝癌在临床遇到的问题
肝癌发生存在多中心起源假说,即多个癌灶之间在肝内是彼此独立形成的,那么这类病人可能尚属肝癌发生早期,通过手术切除能达到较为理想的效果,并且预后较好。但如果在多个癌灶之间存在遗传关系(肝内播散),即其中一些癌灶是通过其他癌灶转移而形成的,那么这类病人应属肝癌晚期,手术效果较差。
二、待解决问题
1. 如何在分子水平验证两种模型
2. 如何在手术前判断两种模型
三、测序手段及分析路线
1. 测序手段:结合whole-genome sequencing和whole-transcriptome sequencing
2. 分析路线:
肝癌基因组重测序生信分析流程对Raw FastQ进行过滤,如去除一些测序质量较低的reads,得到clean FastQ文件,将Clean FastQ进行基因组比对参考基因组得到一个比对格式的BAM文件,对BAM文件进行校正,如去除duplicate,质量的校正以及Indel附近的重新的回帖,得到的Adjusted BAM文件可以进行SV的分析。另一方面,为了进行SNV, indel的分析,需要先将BAM文件转化为Pileup文件。
(1)FastQ文件比对后的结果
A. 覆盖度,
B. 测序的平均深度,一般全基因组重测序的平均深度在30X
C. 测序产生的数据量
D. 肿瘤纯度的评估: a. 肿瘤突变谱和背景突变谱的比较; b. 临床医生对肿瘤切片中肿瘤细胞的占比。
(2)在基因组水平所做的模型间的比较分析
A. HBV整合位点
B. somatic mutation
癌症基因组测序indel鉴定原理Q:如何对所找到的SNV位点进行注释?
A:首先先知道SNV位点是否落在基因上;如果是落在基因上,那分析是落在编码基因上还是非编码基因上;如果是落在编码基因上则还需分析是落在外显子区还是内含子区;如果是落在外显子上则继续确定是落在编码蛋白的外显子上(即CDS区),还是不编码蛋白的UTR区。落在CDS区的SNV,一不定能导致蛋白的功能变异,导致蛋白功能变异的SNV称为非同义突变。
Q:somatic mutation突变的统计——做哪些统计?用什么方法展示?
A:韦恩图(overlap)展示总体SNV情况,补充说明图表
韦恩图展示somatic mutation的总体情况图解:左图中,PI-MI(转移灶)中含有299个perspective SNV events, 推测一般是发生在基因间区,基因间区的选择压力较小,突变的几率比较高,但是突变一般对细胞的功能产生致命影响的概率也比较小。
B:CDS区域非同义突变位点的情况
CDS区非同义突变情况分析图解:左边的每一个条目代表发生非同义突变的基因,蓝色代表未发生突变,橘色代表发生了非同义的、致病性的突变。右边为对发病左、右灶的分析。
C. copy number variation
Circos图进行CNV分析展示图解:不同直径的同心圆表示的是不同的样本组织来源(PS:circos图中的同心圆不仅可以用来表示不同的分析目标,如SV分析、CNV分析,indel分析等,也可以像这张图一样用来表示不同来源的样本中单个分析目标的存在情况。),图中,粗圈表示NGS得到的CNV情况,淡色的细圈表示芯片法(Array CGH)得到的同一批样本的CNV情况。
首先关注两种方法得到结果相对一致的区域,如左边circos图中,chr4后半区域呈现染色体的大片段缺失,chr8后半区域呈现出扩增。这种扩增和缺失在所有来源的癌灶样本中都是存在的。而右边的circos图中,chr17和chr8的结果表示不同癌灶的独立起源。
CNV分析结果的详细展示图解:CNV的区域与基因表达相关。比如chr4后半发生一段缺失,其所在区域内的基因的表达量是下调的。
关于chr4为什么会缺失?如何导致的?这在CNV水平的分析无法解释,可以通过SV分析来进行大致解释。
D. Structure variation
通过双端reads与单条reads的情况来分析。discontent pair-end reads和soft-cleared reads。 SV即可以发生在同一条染色体内,也可以发生在不同染色体之间。
SV分析结果的可视化附:粗略转录组分析套路
差异表达基因——差异基因功能富集——pathway enrichment (KEGG or BioCarta pathways)——选取某几个代表基因进行实验验证,如qPCR,Over-all生存曲线,
TTK基因与Over-all生存关系的分析——生存曲线