NGSrna_seqlinux

外显子信息分析简介学习

2020-08-07  本文已影响0人  jiarf

外显子测序:

SE:单端测序

PE:双端测序,测得reads更长

测序深度:测序得到的待测区域总碱基数与待测区域大小的比值

覆盖度:指测序获得的序列占整个待测区域的比例

SNP:单核苷酸多态性,个体间基因组 DNA序列同一位置单个核苷酸变异(替代、插入、缺失)所引起的多态性。

InDel:插入/缺失,在基因组重测序进行mapping时,进行容Gap的比对并检测可信的shortInDel

外显子信息分析流程:

5.SNP、InDel

1.本地局部比对:3个T

2.打分值校正:

3.查找

4.注释:table_annovar一次性对多个库进行注释

若一系列数据库都找不到改位点,那么用注释软件预测

ref:参考基因组碱基

倒数第二列:号

比如我们有50个病人,50个健康人,我们想找哪些snp位点和疾病相关,那我们就用GWAS,拿到位点注释得到位点与疾病是否相关,或者我们实验得到数据自己做一个GWAS分析,找到与疾病相关的位点。

建索引

1、注释:标明这个shell脚本是建立索引,index的

2、bwa进行比对

3、若注释文件超过2G,加参数比对

4、fasta文件告诉每个染色体的位置

5、每条染色体长度的信息

  QC

与转录组同

14、15去adapter

17、18某一条reads的n含量超过5%,删掉

20、21低质量去除

比对

31、32比对到基因组上得到坐标文件 即为-f后面的文件

34、将两个文件进行综合,转换为bam文件

在生信中很多分析都是由bam文件分析的

bam文件

samtools查看bam文件

-h:可以看到bam文件的头文件

前三行都是bam文件的文件头,以@开头,若有很多个染色体,那么头文件就会很长

第一列:reads编号信息

2、reads打分,比对上正链、负链.....

3、比对到哪条:*:为没有比对上参考基因组的任何位置

4、5、比对到染色体上的哪个位置

6、打分:比对上的唯一性或质量值,越高越好

7、有几个比对上了:有70个全都比对上了

8、=:reads1和2都比对上了这条染色体

最后为序列文件和参数文件XT:A:U,unqiue

比对时,reads数小于100的比对用32-34,大于100的用36-37得到我们的bam文件

39、排序,按染色体的比对上的排,没拍之前是按输入的reads的顺序

40、index

41、dupuliacation 标记

42、拿出bam文件中的unique

45-47统计,可以通过r进行可视化

46、reads落在基因组上的区域UTR、CDS、TSS_UP_1K,大多数都要落在CDS区,因为是外显子建库 若没有的话,要考虑建库是否有问题,

47:覆盖深度的计算:文件行数 / 外显子总的兆数bp数=覆盖率

第三列加起来 / 外显子总的兆数bp数=整体测序的深度  (比如10*)

47

call SNP、Indel

使用软件GATK

脚本

53、创建一个需要去比对的区域,因为有的都是SNP就不需要比对,不会出现两个T或三个T的情况

54进行重新比对

57、需要调整的分值文件,--knowSites :snp文件:人:snp138

58、根据分值文件进行调整

59、对其建立索引

62、call SNP、indel:-T:算法,-glm:indel/SNP/both,-o输出文件后面的就是一些过滤条件

得到的文件最后两列

GT:基因型;1/1:ref/自己的,都是T

AD:参考         0,2: T是0个,C是两个

DP:是总的测到的深度,reads总条数,AD的和

GQ:基因型打分

PL:三种基因型的打分,00、01、11,打分值越小,基因型可能xing越高,所以前面1/1

63、过滤SNP

SNP注释

annovar

染色体、起始、终止、ref、alt有这五列就可以去注释了

蓝色字体:数据库的下载,还可以去69的网页中下载别的注释的数据库

76、--remove删除中间文件

上一篇 下一篇

猜你喜欢

热点阅读