生信学习生信小白GEO&TCGA数据库挖掘

手把手学习TCGA数据库:SNP突变分析第六期

2019-07-25  本文已影响125人  765f2ea50d22

本文首发于 ”百味科研芝士“ 微信公众号,转载请注明:百味科研芝士,Focus科研人的百味需求

点击蓝字关注我们

各位科研芝士的朋友,大家好,兜兜转转,我们已经陆续推出snp数据各种姿势下载,数据下载不是目的,下载的数据可以分析才是目的。

那么我们今天就带着大家解锁下载的snp数据如何处理。既然是处理maf格式的文件,那我们今天的主角便是maftools工具。

maftools也是目前处理snp数据用的最多的一个包。maftools提供了直接读取maf文件的接口,而且存储为S4对象,非常方便进行一系列可视化操作,而且大部分都是一行代码出图,基本上不需要太高深的R语言知识。

下面开启你的R界面,学习该包:

01

maftools安装,借助BiocManager安装,前提也是你要安装好BiocManager,命令如下:

02

 加载该包:

Ok,可以看到没有任何问题,这也表明,我们安装并成功加载该工具包

03

这里以急性髓性白血病为例子,我们读进去该包内置的maf文件:

这一步便是对maf文件读取,采用read.maf函数,主要为maf参数,输入的为maf文件的路径,如上所示,我们发现我们的maf文件便成功读进去了。

04

对样本和基因进行总结统计,分别采用的是getSampleSummary函数和getGeneSummary函数,如下:

可以看到上面存在不同的突变类型,分别为:

missense_mutation:错义突变
frame_shift_del:移码缺失突变
nonsense_mutation:无义突变
frame_shift_ins:移码插入突变
splice_site:剪接位点
in_frame_ins:框内插入
in_frame_del:框内缺失
translation_start_site:转录起始位点
nonstop_mutation:终止密码子突变

05

对maf文件概览:

结果如下,分别为变异分类,变异类型,SNV的类别,每个样本存在的突变数,突变总结以及最容易突变的前10个基因:

06

突变基因展示,比如展示突变频率最高的前10个基因,如下:

采用oncoplot函数轻松绘制,结果如下:

如果想绘制前20个突变基因呢?只需要将top参数后面的数字改为20即可,如下:

结果如下:

Ok,今天的教程主要是带大家采用maftools对maf文件进行处理,希望大家可以喜欢哦。

关注微信公众号,后台回复:“snp”,获取代码

上一篇 下一篇

猜你喜欢

热点阅读