外显子数据分析之基因融合factora

2024-05-27  本文已影响0人  单细胞空间交响乐

作者,Evil Genius~~~

美国人不按照套路出牌啊,外显子CNV分析原理及各种注意事项刚给下面的人培训完,结果今天考核的基因融合,真是出事了。

让我想起了刚入职参加工作的时候,也是培训天天考核,考核是随机并且没有目的性的,所有内容都在考核范围,有一次我也考核没过,心里那种害怕还记忆犹新。只不过现在站在台上的是我,培训台下一群5年前的“我”。

关于外显子基因融合一般采用factora或者genefuse,我们这里采用factora,感兴趣的可以查阅genefuse。factora文章在FACTERA: a practical method for the discovery of genomic rearrangements at breakpoint resolution

基因融合常见的三种发生机制:

1)Chromosomal Translocation,染色体易位。

2)Interstitial deletion,中间缺失。

3)Chromosomal Inversion,染色体倒位。

知识背景

METHODS

融合的表示方法

一、断点方式(SVTYPE=BND)
在描述SV的VCF规范中,其中之一就是详细的描述SV的断点,并在INFO列标明SVTYPE=BND,这时,SV的具体发生情况就有四种类型:

如上图所示,VCF的BND表示法遵守以下的规则:

符号表示法的易位(<TRA>)

VCF中描述SV的另一种方式是“符号表示法”。在VCF的ALT列中相应的标签,如<INV>表示倒位,<DUP>表示重复。
由于易位相对复杂,因此这里的<TRA>表示的也比较模糊,仅有标签是不够的。所以就有了在INFO列增加相应的标签(CHR2表示第二个断点的染色体,END表示具体位置)表示第二个断点的位置和方向。最后还需要的一个信息就是两个断点间的相邻关系,这里用CT表示。
所以,两种表示方法间的对应关系就有了:

BND <TRA> with CT INFO field
1 500 . N N[1:800[ 1 500 . N <TRA> ... CHR2=1;END=800;CT='3to5'
1 500 . N ]1:800]N 1 500 . N <TRA> ... CHR2=1;END=800;CT='5to3'
1 500 . N [1:800[N 1 500 . N <TRA> ... CHR2=1;END=800;CT='5to5'
1 500 . N N]1:800] 1 500 . N <TRA> ... CHR2=1;END=800;CT='3to3'

其他类型的符号标签(<DEL>, <INV>, <DUP>)

下图展示了删除,倒位和重复的几种情况:

由此可见,删除和重复只有一种相邻关系,而易位则会存在两种情况,两种表示法的对应关系如下:

Symbolic Call As BND call(s)
1 10 . N <DEL> ... END=20; 1 10 . N N[1:21[
1 10 . N <INV> ... END=20; 1 10 . N N]1:20]
1 1 . N <DUP> ... END=10; 1 1 . N ]1:10]N

在合并多个样本或工具生成的SV VCF时,mergevcf 和 SURVIVOR 均会将符号表示法转为BND表示法,因此,很有必要搞清楚它们之间的对应关系。

基因融合鉴定的一些常见术语(A) Intact exon (IE) type andbroken exon (BE) type fusion transcripts; (B) spanning read, split readand anchor length; (C) short and long insert size of DNA fragment forsequencing.

这些常见的术语有:

FACTERA的输出文件(这块儿不翻译了,翻译了感觉表示不出来真实的意思)

Each FACTERA run produces 9 main output files, each of which is described below:

Field Description
Est_Type Estimated structural variant type: TRA = translocation; INV = inversion; DEL = deletion; '-' = not determined
Region1 Name of genomic region closest to breakpoint 1 (e.g., gene 1, exon 1, etc.)
Region2 Name of genomic region closest to breakpoint 2 (e.g., gene 2, exon 2, etc.)
Break1 Chromosomal breakpoint 1
Break2 Chromosomal breakpoint 2
Break_support1 Number of reads supporting breakpoint 1
Break_support2 Number of reads supporting breakpoint 2
Break_Offset Breakpoint adjustment in bases (e.g., owing to microhomology)
Order1 Orientation of read clipping with respect to breakpoint 1: CN, clipped followed by not clipped; NC, vice versa
Order2 Same as Order1, but for breakpoint 2
Break_depth Number of breakpoint-spanning reads
Proper_pair_support Number of properly paired and previously soft-clipped reads that map to fusion
Unmapped_support Number of previously unmapped reads that map to fusion
Improper_pair_support Number of previously discordantly paired reads that map to fusion
Paired_end_depth Total number of paired-end reads that flank breakpoint
Total_depth Mean total depth for regions flanking both breakpoints (+/-500bp by default)
Fusion_seq Estimated fusion sequence (50 bases flanking breakpoint by default)
Non-templated_seq Non-templated (i.e., non-reference) sequence segment (if any) enclosed in brackets

后续有什么我们继续补充,生活很好,有你更好,我要去做培训的PPT了。

上一篇 下一篇

猜你喜欢

热点阅读