生物信息学与算法生信在线数据库生信分析流程

融合基因学习笔记

2018-06-11  本文已影响556人  shannonnana

概述

融合基因是指两个基因的全部或部分序列融合而成的嵌合基因,一般由染色体易位、缺失等原因所致。
融合基因首次发现于血液系统的恶性肿瘤中,其中以慢性粒细胞白血病中BCR-ABL的基因融合最为经典,治疗慢性粒细胞白血病的药物伊马替尼/格列卫,其作用靶点就是该融合基因。
基因组和转录组测序是获得染色体重排和融合转录本的重要方法。高通量RNA测序技术因其通量高、成本低、检测精度高和检测范围广等优点大大加快了融合基因的研究,常用的融合基因的检测软件有SOAPfuse或STAR-Fusion。

分析流程

软件选择

soapfuse只适合人(Homo_sapiens)的融合基因分析,starfusion应用更广,选择时可根据需要进行选择。
其他软件还有FusionSeq , deFuse , TopHat-Fusion , FusionHunter , SnowShoes-FTD, chimerascan, FusionMap 等

1. starfusion

starfuse.png

STAR-Fusion是利用STAR比对的融合输出结果来检测融合转录本的软件包,主要包括SATR比对,STAR-Fusion.predict,STAR-Fusion.filter三个步骤:

1)至少有一对含有剪切位点注释的JunctionReads,并且 JunctionReads与SpanningFrags(Discordant pair)的总数至少要大于等于二。
2)如果融合的基因的reads的支持只有JunctionReads,即 SpanningFrags=0的情况,那么对于双端测序的reads至少有25个碱基可以比 对到融合基因断点的两端。
3)如果融合基因的融合的断点位置与已经注释的外显子的剪位点不一致,则至少需要三对JunctionReads。

2. soapfuse

soapfuse.png

代码

1. starfusion[参考]

版本STAR-Fusion-v1.2.0

./STAR-Fusion/STAR-Fusion/STAR-Fusion --genome_lib_dir ./Database/Fusion/STAR/GRCm38 --left_fq ./cleandata/P_1_1.clean.fq.gz --right_fq ./cleandata/P_1_2.clean.fq.gz --output_dir ./Fusion/P_1 --annotate --examine_coding_effect --extract_fusion_reads --FusionInspector inspect --denovo_reconstruct --CPU 4 --tmpdir ./Fusion/Y1/tmp --min_junction_reads 1 --min_sum_frags 2

# --genome_lib_dir 参数基因组注释文件,可在https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/下载
# --left_fq right_fq 输入双端的cleandata。如果是单端测序,只需要left_fq参数
# --output_dir 结果文件输出目录
# 可选参数
#   --annotate                            annotate fusions based on known cancer fusions and those found in normal tissues,可对预测的融合基因进行PFAM注释
#   --examine_coding_effect               explore impact of fusions on coding sequences,即预测融合基因编码功能影响
#    --extract_fusion_reads                retrieves the fusion supporting reads from the fastq files
#    --FusionInspector <inspect|validate>  include FusionInspector, options:(利用FusionInspector软件对预测的融合基因进行过滤)
# √                                             'inspect' - considers only StarFusion-identified fusion reads in context of identified fusions (fast)
#                                               'validate' - examines all reads, recovers evidence, computes fusion allele fractions (slow) 
#    --CPU <int>                           number of threads for running STAR (default: 4)
#    --min_junction_reads <int>            minimum number of junction-spanning reads required. Default: 1
#    --min_sum_frags <int>                 minimum fusion support = ( # junction_reads + # spanning_frags ) Default: 2
#    --tmpdir <string>                     file for temporary files (default: /tmp) (可设置为./Fusion/P_1/tmp)
## 其他参数参考help

FusionName  JunctionReadCount   SpanningFragCount   LeftGene    LeftLocalBreakpoint LeftBreakpoint  RightGene   RightLocalBreakpoint    RightBreakpoint SpliceType
IGHGP--IGH-@    13  0   IGHGP   2574    chr14:105668270:-   IGH-@   24931   chr14:105741527:+   INCL_NON_REF_SPLICE
IGKV2-30--IGKJ1 11  0   IGKV2-30    1815    chr2:89244782:- IGKJ1   4817    chr2:88861923:- INCL_NON_REF_SPLICE
IGKV1-39--IGKJ4 8   0   IGKV1-39    1522    chr2:89319625:- IGKJ4   4523    chr2:88860922:- ONLY_REF_SPLICE
### 主要参数说明
#(1) FusionName:融合基因的名字
#(2)JunctionReadCount:转录组测序片段中包含的JunctionReads,JunctionReads可以比对到推断的融合断点的转录组测序片段的数目,即支持融合事件发生的JunctionReads数目
#(3)SpanningFragCount:转录组测序片段中包含的SpanningFrags,SpanningFrags可以比对到不同的两个基因的转录组测序片段的数目,即支持融合事件发生的SpanningFrags数目
#(4)LeftGene:融合事件的上游基因
#(5)LeftLocalBreakpoint: 上游基因在基因序列上的断点位置(断点位置是从每个基因序列的5’开始)
#(6)LeftBreakpoint:上游基因断点所在的基因组位置和上游基因所在的正负链
#(7)RightGene:融合事件的下游基因
#(8)RightLocalBreakpoint: 下游基因在基因序列上的断点位置(断点位置是从每个基因序列的5’开始)
#(9)RightBreakpoint:下游基因断点所在的基因组位置和下游基因所在的正负链
#(10)SpliceType:是否检测到的融合断点发生在与参考的转录本结构的注释信息中的外显子的剪切位点。分两种情况:ONLY_REF_SPLICE;INCL_NON_REF_SPLICE。ONLY_REF_SPLICE:检测到的融合断点发生在与参考的转录本结构的注释信息中的外显子的剪切位点;INCL_NON_REF_SPLICE:检测到的融合断点不是发生在与参考的转录本结构的注释信息中的外显子的剪切位点
...

2)注释文件STAR-Fusio会预测融合基因的CDS序列,并进行PFAM注释
(*fusion_annotion.xls)

FusionName  JunctionReadCount   SpanningFragCount   LeftGene    LeftLocalBreakpoint LeftBreakpoint  RightGene   RightLocalBreakpoint    RightBreakpoint SpliceType  annots  CDS_LEFT_ID CDS_LEFT_RANGE  CDS_RIGHT_ID    CDS_RIGHT_RANGE PROT_FUSION_TYPE    FUSION_MODEL    FUSION_CDS  FUSION_TRANSL   PFAM_LEFT   PFAM_RIGHT
IGHGP--IGH-@    13  0   IGHGP   2574    chr14:105668270:-   IGH-@   24931   chr14:105741527:+   INCL_NON_REF_SPLICE IGHGP->immunoglobulin_heavy_constant_gamma_P_(non-functional),INTRACHROMOSOMAL[chr14:0.01Mb],NEIGHBORS_OVERLAP:-:+:[5210]   .   .   .   .   .   .   .   .   .   .
IGKV2-30--IGKJ1 11  0   IGKV2-30    1815    chr2:89244782:- IGKJ1   4817    chr2:88861923:- INCL_NON_REF_SPLICIGKV2-30->immunoglobulin_kappa_variable_2-30,IGKJ1->immunoglobulin_kappa_joining_1,HGNC_GENEFAM,INTRACHROMOSOMAL[chr2:0.38Mb] ENST00000468494.1   1-360   ENST00000390242.2   1-38    FRAMESHIFT  chr2|-|[1]89244782-89245091[1]|[0]89245518-89245566[0]<==>chr2|-|[1]88861886-88861923[0]    atgaggctccctgctcagctcctggggctgctaatgctctgggtcccaggatccagtggggatgttgtgatgactcagtctccactctccctgcccgtcacccttggacagccggcctccatctcctgcaggtctagtcaaagcctcgtatacagtgatggaaacacctacttgaattggtttcagcagaggccaggccaatctccaaggcgcctaatttataaggtttctaaccgggactctggggtcccagacagattcagcggcagtgggtcaggcactgatttcacactgaaaatcagcagggtggaggctgaggatgttggggtttattactgcatgcaaggtacacactggcctGTGGACGTTCGGCCAAGGGACCAAGGTGGAAATCAAAC  MRLPAQLLGLLMLWVPGSSGDVVMTQSPLSLPVTLGQPASISCRSSQSLVYSDGNTYLNWFQQRPGQSPRRLIYKVSNRDSGVPDRFSGSGSGTDFTLKISRVEAEDVGVYYCMQGTHWPVDVRPRDQGGNQ    Ig_3|24-114|1.7e-08^I-set|24-113|1.6e-06^V-set|26-114|2.8e-20^Ig_2|26-114|2e-05^ig|31-114|1.4e-07^N6_N4_Mtase|55-92|7.2e-06 .
IGKV1-39--IGKJ4 8   0   IGKV1-39    1522    chr2:89319625:- IGKJ4   4523    chr2:88860922:- ONLY_REF_SPLICE IGKV1-39->immunoglobulin_kappa_variable_1-39_(gene/pseudogene),IGKJ4->immunoglobulin_kappa_joining_4,GTEx_Recurrent:{Blood_Vessel=[count:6=pct:1.6],Esophagus=[count:3=pct:0.7],Skin=[count:2=pct:0.6],Lung=[count:2=pct:1.2],Thyroid=[count:2=pct:1.1],Blood=[count:2=pct:1.1],Whole_Blood=[count:2=pct:1.5],Adipose_Tissue=[count:1=pct:0.3],Testis=[count:1=pct:1.0],Small_Intestine=[count:1=pct:1.8],Heart=[count:1=pct:0.4]},HGNC_GENEFAM,INTRACHROMOSOMAL[chr2:0.46Mb]   ENST00000498574.1   1-351   ENST00000390239.2   1-37    INFRAME chr2|-|[2]89319625-89319920[1]|[0]89320045-89320099[0]<==>chr2|-|[0]88860886-88860922[0]    atggacatgagggtccccgctcagctcctggggctcctgctactctggctccgaggtgccagatgtgacatccagatgacccagtctccatcctccctgtctgcatctgtaggagacagagtcaccatcacttgccgggcaagtcagagcattagcagctatttaaattggtatcagcagaaaccagggaaagcccctaagctcctgatctatgctgcatccagtttgcaaagtggggtcccatcaaggttcagtggcagtggatctgggacagatttcactctcaccatcagcagtctgcaacctgaagattttgcaacttactactgtcaacagagttacagtacccctCTCACTTTCGGCGGAGGGACCAAGGTGGAGATCAAAC    MDMRVPAQLLGLLLLWLRGARCDIQMTQSPSSLSASVGDRVTITCRASQSISSYLNWYQQKPGKAPKLLIYAASSLQSGVPSRFSGSGSGTDFTLTISSLQPEDFATYYCQQSYSTPLTFGGGTKVEIK   I-set|25-111|7.6e-10^Ig_3|26-111|2.2e-12^V-set|28-111|5e-22^ig|29-112|2.3e-10^Ig_2|30-114|2.7e-07   .
### 主要参数说明
#(1)FusionName:融合基因的名字
#(2)JunctionReadCount:转录组测序片段中包含的JunctionReads,JunctionReads可以比对到推断的融合断点的转录组测序片段的数目,即支持融合事件发生的JunctionReads数目
#(3)SpanningFragCount:转录组测序片段中包含的SpanningFrags,SpanningFrags可以比对到不同的两个基因的转录组测序片段的数目,即支持融合事件发生的SpanningFrags数目
#(4)LeftGene:融合事件的上游基因
#(5)LeftLocalBreakpoint: 上游基因在基因序列上的断点位置(断点位置是从每个基因序列的5’开始)
#(6)LeftBreakpoint:上游基因断点所在的基因组位置和上游基因所在的正负链
#(7)RightGene:融合事件的下游基因
#(8)RightLocalBreakpoint: 下游基因在基因序列上的断点位置(断点位置是从每个基因序列的5’开始)
#(9)RightBreakpoint:下游基因断点所在的基因组位置和下游基因所在的正负链
#(10)SpliceType:是否检测到的融合断点发生在与参考的转录本结构的注释信息中的外显子的剪切位点。分两种情况:ONLY_REF_SPLICE;INCL_NON_REF_SPLICE。ONLY_REF_SPLICE:检测到的融合断点发生在与参考的转录本结构的注释信息中的外显子的剪切位点;INCL_NON_REF_SPLICE:检测到的融合断点不是发生在与参考的转录本结构的注释信息中的外显子的剪切位点
#(11)annots:主要有两种融合情况INTERCHROMOSOMA(染色体间的基因融合)和INTRACHROMOSOMAL(染色体内的基因融合)
#(12)CDS_LEFT_ID: 上游融合基因的具有CDS区域的转录本的id
#(13)CDS_LEFT_RANGE:上游融合基因的具有CDS区域的转录本的碱基长度范围(bp)
#(14)CDS_RIGHT_ID:下游融合基因的具有CDS区域的转录本的id
#(15)CDS_RIGHT_RANGE:下游融合基因的具有CDS区域的转录本的碱基长度范围(bp)
#(16)PROT_FUSION_TYPE: 蛋白融合的类型,有两种情况:FRAMESHIFT(翻译的阅读框发生移码,翻译出的多肽链氨基酸序列与原来相比同样发生了很大的变化),INFRAME(正常的ORF,即融合的两个蛋白可以正常的翻译)
#(17)FUSION_MODEL:融合的模型,通过0、1、2这三个数字(密码子的第一、第二、第三碱基)和箭头“-”来描述是否发生移码。[1]38627089-38627141[0]表示在exon:38627089位置的密码子的第二个碱基和exon:38627141位置的密码子的第一个碱基结合。
#(18)FUSION_CDS:融合基因的CDS序列,小写的碱基是上游融合基因的CDS序列,大写是碱基是下游融合基因的CDS序列
#(19)FUSION_TRANSL:翻译得到的融合基因的氨基酸序列
#(20)PFAM_LEFT:上游融合基因的PFAM注释结果。example:DUF1515|572-611|0.073。DUF1515:PFAM预测的得到的蛋白结构域;572-611:预测的结构域的碱基范;0.073:预测的和DUF15的相似度
#(21)PFAM_RIGHT:下游融合基因的PFAM注释结果。example:DUF1515|572-611|0.073。DUF1515:PFAM预测的得到的蛋白结构域;572-611:预测的结构域的碱基范;0.073:预测的和DUF15的相似度
# step1
./STAR-Fusion/STAR-Fusion/STAR-Fusion --genome_lib_dir ./Database/Fusion/STAR/GRCm38 --left_fq ./lncRNA_QC/cleandata/P_1_1.clean.fq.gz --right_fq ./lncRNA_QC/cleandata/P_1_2.clean.fq.gz --output_dir ./Fusion/starfusion/P_1

# step2 得到融合基因列表
cut -f 1 ./Fusion/P_1/star-fusion.fusion_candidates.final.abridged |grep -v "#" > ./Fusion/P_1/P_1.fusionlist

# step3 FusionInspector过滤
./FusionInspector/FusionInspector_v0.5.0_FULL/FusionInspector --fusions ./Fusion/P_1/P_1.fusionlist --genome_lib_dir ./Database/Fusion/STAR/GRCm38 --left_fq ./cleandata/P_1_1.clean.fq.gz --right_fq ./cleandata/P_1_2.clean.fq.gz --out_dir ./Fusion/P_1 --out_prefix P_1
### 参数说明
# --fusions CHIM_SUMMARY_FILES
# --genome_lib_dir GENOME_LIB_DIR 
# --left_fq LEFT_FQ_FILENAME
# --right_fq RIGHT_FQ_FILENAME
# --out_dir OUT_DIRNAME
# --out_prefix OUT_PREFIX

得到*fusion_predictions.final.abridged *fusion_predictions.final.abridged.FFPM等结果文件

1)*fusion_predictions.final.abridged 文件

#fusion_name    JunctionReads   SpanningFrags   Splice_type LeftGene    LeftBreakpoint  RightGene   RightBreakpoint Annotations TrinityGG
Rps6kb1--Vmp1   260 21  ONLY_REF_SPLICE Rps6kb1 chr11:86532772:-    Vmp1    chr11:86611422:-    .
Klf3--Ppargc1a  209 24  ONLY_REF_SPLICE Klf3    chr5:64816830:+ Ppargc1a    chr5:51548691:- .
Nme1--Gm28901   189 12  INCL_NON_REF_SPLICE Nme1    chr11:93959491:-    Gm28901 chr1:97024631:- .

2)*fusion_predictions.final.abridged.FFPM

#fusion_name    JunctionReads   SpanningFrags   J_FFPM  S_FFPM  Splice_type LeftGene    LeftBreakpoint  RightGene   RightBreakpoint Annotations TrinityGG
Rps6kb1--Vmp1   260 21  64.8852 5.2407  ONLY_REF_SPLICE Rps6kb1 chr11:86532772:-    Vmp1    chr11:86611422:-    .
Klf3--Ppargc1a  209 24  52.1577 5.9894  ONLY_REF_SPLICE Klf3    chr5:64816830:+ Ppargc1a    chr5:51548691:- .
Nme1--Gm28901   189 12  47.1666 2.9947  INCL_NON_REF_SPLICE Nme1    chr11:93959491:-    Gm28901 chr1:97024631:- .

3)P_1.bed P_1.fa P_1.gtf P_1.junction_reads.bam P_1.junction_reads.bam.bai P_1.spanning_reads.bam P_1.spanning_reads.bam.bai
融合基因的序列注释等

一个结果例子:

## 可用P_1.fa序列直接进行注释
Sequence_Accession  Sequence_Length Analysis_Database   Signature_Accession Signature_Description   Start_location  Stop_location   Score
Alkbh5--Gid4_760    388 Coils   Coil        5   5   -
Pusl1--Nmrk1_29 95  PANTHER PTHR11142       40  93  2.1E-12
## IGV 所需文件
### P_1.bed  P_1.gtf  P_1.junction_reads.bam.bai  P_1.spanning_reads.bam.ba  P_1.fa   P_1.junction_reads.bam  P_1.spanning_reads.bam
## circle图
### 利用fusion_predictions.final.abridged画图

2. soapfuse[参考]

软件下载后解压缩,如下:

$ls SOAPfuse-v1.27/
config  SOAPfuse-RUN.pl  source  update_log.txt
## config对应配置文件的目录,需要修改Config/config.txt文件
## source是所有perl脚本目录

1) 修改Config/config.txt文件中的路径(参考)

DB_db_dir = 
PG_pg_dir = 
PS_ps_dir = 
PD_all_out =
PA_all_fq_postfix = 

2)数据库准备
需要下载文件,具体参考./SOAPfuse-v1.27/source/SOAPfuse-S00-Generate_SOAPfuse_database.pl 脚本help

fa
gtf
cytoBand.txt
complete HGNC Gene Family dataset

准备好这些文件后运行脚本构建数据库。

perl ./SOAPfuse-v1.27/source/SOAPfuse-S00-Generate_SOAPfuse_database.pl \
-wg ./GRCh38/GRCh38.fa \
-gtf ./GRCh38/Gene_annotation.gtf.gz  \
-cbd ./GRCh38/cytoBand.txt  \
-gf ./GRCh38/HGNC_Gene_Family_dataset \
-sd ./SOAPfuse-v1.27 \
-dd ./

3)添加环境变量

PERL5LIB=$PERL5LIB:/PATH_WHERE_YOU_PUT_THE_PACKAGE/source/bin/perl_module; export PERL5LIB

4)多样本配备sample.txt文件

C1      paired  150
C2      paired  150
Y3      paired  150
C3      paired  150
...
perl ./SOAPfuse/SOAPfuse-v1.27//SOAPfuse-RUN.pl \
-c ./Config/config.txt \
-fd ./Fusion/Sample \
-l ./Fusion/Config/C1.config \
-o ./Fusion/C1 \
-fs 1 \
-es 9
## -c 配置文件
## -fd 储存fa文件的目录,如
├── C1
│   └── Lib-a
│       ├── Run-a_1.fq.gz -> ./lncRNA_QC/cleandata/C1_1.clean.fq.gz
│       └── Run-a_2.fq.gz -> ./lncRNA_QC/cleandata/C1_2.clean.fq.gz
├── C2
│   └── Lib-a
│       ├── Run-a_1.fq.gz -> ./lncRNA_QC/cleandata/C2_1.clean.fq.gz
│       └── Run-a_2.fq.gz -> ./lncRNA_QC/cleandata/C2_2.clean.fq.gz
├── C3
...

## -l  分别对应SampleID   Lib   Lane   readlength,如
C1      Lib-a   Run-a   150
## -o  输出目录
## -fs START_STEP,默认是1 
## -es END_STEP,默认是9
###其他参数参考help
$tree -N -L 1 .
.
├── align_trim_unmap_Tran
├── align_unmap_Tran
├── alignWG
├── candidate
├── change_SE
├── denovo_unmap
├── final_fusion_genes
├── junction_seq
└── TEMP

主要结果文件都在final_fusion_genes下,主要有下列几个

1)*final.Fusion.specific.for.genes 融合基因列表

up_gene up_chr  up_strand   up_Genome_pos   up_loc  dw_gene dw_chr  dw_strand   dw_Genome_pos   dw_loc  Span_reads_num  Junc_reads_num  Fusion_Type down_fusion_part_frame-shift_or_not
ACAD8   chr11   +   134263731   M   GLB1L3  chr11   +   134275184   M   4   9   INTRACHR-SS-OGO-0GAP    NA
ATP1B2  chr17   +   7656772 M   RN7SL4P chr3    +   15738545    M   8   7   INTERCHR-SS NA
ATP1B2  chr17   +   7656777 M   RN7SL4P chr3    +   15738542    M   15  2   INTERCHR-SS NA

##(1) up_gene:融合事件的上游基因名称
##(2) up_chr:上游基因所在的染色体
##(3) up_strand:上游基因所在的正负链
##(4) up_Genome_pos:上游基因断点所在的基因组位置
##(5) up_loc:上游基因断点所在的功能区域
##(6) dw_gene:融合事件的下游基因
##(7) dw_chr:下游基因所在的染色体
##(8) dw_strand:下游基因所在的正负链
##(9) dw_Genome_pos:下游基因断点所在的基因组位置
##(10) dw_loc:下游基因断点所在的功能区域
##(11) Span_reads_num:支持融合事件发生的span-reads数目
##(12) Junc_reads_num:支持融合事件发生的junc-reads数目
##(13) Fusion_Type:融合事件类型,融合时间主要分为5类,INTERCHR-DS、INTERCHR-SS、INTRACHR-DS、INTRACHR-SS-RGO和INTRACHR-SS-OGO-xxGAP;其具体含义如下:INTERCHR-DS(inter-chromosomal genes with different DNA strands):是指发生在不同DNA链上染色体间的融合事件。INTERCHR-SS(inter-chromosomal genes with same DNA strand):是指发生在相同DNA链上染色体间的融合时间。INTRACHR-DS(intra-chromosomal genes with different DNA strands):是指发生在不同DNA链上染色体内部的融合事件。INTRACHR-SS-RGO(intra-chromosomal genes with same DNA and the upstream and downstream genes in the events are reverse to their genomic coordinates):是指发生在相同DNA链上染色体内部的融合事件,且发生该事件的上游基因位于发生该事件下游基因的基因组下游位置。INTRACHR-SS-OGO-xxGAP(intra-chromosomal genes with same DNA strand and the upstream and downstream genes in the fusion events are consistent with their genomic coordinates):是指发生在相同DNA链上染色体内部的融合事件,且发生该事件的上游基因和下游基因的基因组位置始终保持一致。
##(14) down_fusion_part_frame-shift_or_not:融合的下游基因是否发生移码突变,frame-shift表示移码,NA表示未发生移码突变

2)final.Fusion.specific.for.trans 转录本信息

up_gene up_tran up_chr  up_strand   up_Tran_pos up_Genome_pos   up_loc  dw_gene dw_tran dw_chr  dw_strand   dw_Tran_pos dw_Genome_pos   dw_loc  Span_reads_num  Junc_reads_num  Fusion_Type down_fusion_part_frame-shift_or_not up_rna_type dw_rna_type up_Jpos_func_area   dw_Jpos_func_area   up_start_codon  up_stop_codon   down_start_codon    down_stop_codon fusion_stop_codon   protein_note
ACAD8   ACAD8-018   chr11   +   1157    134263731   3exon-M GLB1L3  GLB1L3-001  chr11   +   940 134275184   1exon-M 4   9   INTRACHR-SS-OGO-0GAP    NA  processed_transcript    protein_coding  exon    utr5    lacks   lacks   has has NA  both_must_be_mRNAs

3)*trans.fusion.peptide.chain融合基因蛋白序列预测

##final_fusion_genes/*/analysis/For_peptides_analysis/*trans.fusion.peptide.chain

BTBD8-002/1358/KIAA1107-001/1-5I94  gtcgtacctctgtgagacATGGCTCG...TCAGCATTAAgtgttaacattt  RNQEGQISGARPKVLTGNLNVQAKAKPLKKATGKVLETQH*

列表分三列,对应转录本ID,转录本序列,蛋白序列
注:上表只是展示,不代表任何意义

4)*trans.fused.seq.for.RT-PCR 融合转录本序列

#final_fusion_genes/*/analysis/For_RT-PCR_validation/*trans.fused.seq.for.RT-PCR

ACAD8/134263731/GLB1L3/134275184    ACAD8-018/1157/GLB1L3-001/940   GGGAATTTGTATCTGCAACAAGTCTGCACAAGCCCTAGAATACTTTAAACTTGACAAAGAAGAATAAAGTGTGTGGCTGtaaaa

供RT-PCR验证的融合转录本序列,表格分三列:基因及断点位置,转录本及断点位置,融合转录本序列

5)*fusions.landscape.3D.png 融合基因断点分布图

## final_fusion_genes/*/analysis/figures/landscape_of_fusions/
*fusions.landscape.3D.png

X轴表示不同的断点,Y轴表示融合事件对应的上下游基因,Z轴表示融合事件得分,该得分与支持融合事件的junc-reads及span-reads数目成正比。柱形颜色表示不同的融合事件类型,'*'表示下游基因为移码突变,'e'表示只有一个融合断点位于外显子边界,'E'表示两个融合断点均位于外显子边界。

6)融合基因断点展示

TTTY15_chrY_12686606_USP9Y_chrY_12702010.png
## final_fusion_genes/*/analysis/figures/SOAPfuse_Fusion_Figure/*/

整合了融合基因断点,融合事件上下游基因断点位置,支持融合事件发生的reads等信息,其中天蓝色和橙色分别对应发生融合事件的上下游基因,深蓝色表示比对到基因上的reads分布,中间部分表示支持该融合事件的序列信息

/PUBLIC/software/RNA/svg2png/lib/svg2png *fusions.landscape.3D.svg 
### 提取final_fusion_genes/*/analysis/For_peptides_analysis/*.trans.fusion.peptide.chain文件前两列作为ID和序列,进行interproscan注释

一个结果例子

Sequence_Accession  Sequence_Length Analysis_Database   Signature_Accession Signature_Description   Start_location  Stop_location   Score
PARG-007/2090/BMS1-001/700  1680    PANTHER PTHR12858       610 912 0.0
PARG-007/2090/BMS1-001/700  1680    PANTHER PTHR12858       1055    1672    0.0
PARG-007/2090/BMS1-001/700  1680    Pfam    PF04950 40S ribosome biogenesis protein Tsr1 and BMS1 C-terminal    1216    1502    6.1E-96
### circle图
### final.Fusion.specific.for.genes文件绘制circle图
上一篇下一篇

猜你喜欢

热点阅读