癌症基因组重测序分析五
——体细胞拷贝数变异(CNV)与基因组结构变异(SV)鉴定
1. 什么是CNV?
Deletions and duplications of chromosomal segments are a major source of variation between individual humans and are an underlying factor in human evolution and in many diseases, including mental illness, developmental disorders and cancer. _from P. J. Hastings et al. Nature Reviews Genetics. 2009
在某一条染色体内部或整条染色体的某一区段发生了缺失或增添,导致染色体的某一区域或这条染色体发生了数目上的变化。一般正常二倍体生物细胞内,每种染色体都有两条,一条来自父亲,另一条来自母亲,发生CNV的变异可能导致染色一的区域或整条染色体的数目变为1条(缺失)或3条(增添)等。
2. 研究CNV的方法——芯片(array CGH) or NGS
arrayCGH和NGS研究CNV拷贝数变异(1) arrayCGH: 大致步骤为首先提取待测样本DNA,进行片段化,然后对不同样本带上各自的荧光标记(如上图所示,待测样本加上红色荧光,参考样本带上绿色荧光),与能结合全基因组任何区域的芯片杂交,如果某段染色体区域发生了拷贝数变异,则其对应位置的探针的荧光变化也会形成相应的变化,通过与参考基因组荧光强弱进行比较来确定是发生了duplication还是deletion。缺点是分辨率不够,只能对几K或几十K的变化进行研究,不能进行几百bp的CNV进行识别。
(2) NGS:步骤大致为样本的片段化,然后进行基因组比对分析,对来自待测样本和参考样本的不同区域测序reads数目进行比较可以知道待测样本不同区域的拷贝数的情况。
3. 鉴定CNV方法举例
CNV-seq, a new method to detect copy number variation usiong high-throughput sequencing (软件地址:http://tiger.dbs.nus.edu.sg/CNV-seq/)
CNV-seq鉴定全基因组拷贝数变异代码参考NormalBam.hit: 包含了基因组上每个位点的coverage
CNV图示化展示
CNV鉴定结果R语言图示化举例$ R
# in R command prompt
>library(cnv)
> data <-read.delim("somatic.cnv")
>cnv.print(data)
# output ...
>cnv.summary(data)
#output ...
>plot.cnv(data, CNV=4, upstream=4e+6, downstream=4e+6)
>ggsave("sample.pdf")
4. 其他CNV鉴定方法
(1) ExomeCNV ExomeCNV
(2) Seqseg
(3) CNVnator CNVnator下载
(4)CNVer
5. 基因组结构变异的几种主要方式
(1) Inter-chromosomal translocation (CTX)
Inter-chromosomal translocationunbalanced:另一条同源重组产物被降解等原因从而引起拷贝数变异;balanced:不引起CNV。
(2) Inversion (INV)
(3) Inter-chromosomal translocation (ITX)
(4) Deletion (DEL)
(5) Insertion (INS)
6. 如何鉴定SV
(1) Soft-clipped reads
soft-clipped reads soft-clipped reads (https://www.researchgate.net/figure/Soft-clipped-reads-vs-improperly-aligned-reads-at-a-structural-variant-breakpoint-The_fig3_259984275)(2) CREST鉴定SV原理及步骤
优点:检测的准确性高;缺点:检测的灵敏度不够。因此如果想检测出尽可能多的SV时此款软件不适用。
原理:根据BAN文件第六列CIGAR提取标识为soft-clipped reads的reads,将覆盖某一位点的所有soft-clipped reads的两端各拼接成一条最长的序列,再将得到的这两条序列比对到参考基因组上,然后确定发生SV的是哪两条染色体。
步骤:
A. Get soft-clipped position
Perl extractSClip.pl -i tumor.bam -ref_genome hg19_genome.fa
Perl extractSClip.pl -i normal.bam -ref_genome hg19_genome.fa
B. Remove germline events
Perl countDiff.pl -d tumor.bam.cover -g germline.bam.cover
C. Running the SV detection script
Perl CREST.pl -f somatic.cover -d tumor.bam -g germline.bam -ref hg19_genome -t hg19_genome.2bit
(3) 其他基因组结构变异鉴定方法
A. Breakdancer (Breakdancer):敏感性高,分辨率不高,利用双端测序
B. Pindel (Pindel)