funny生物信息

MISO 可视化学习

2020-02-27  本文已影响0人  小鹏_哒哒哒

miso是一个可变剪接可视化软件,对mRNA水平或者外显子水平的可变进行可视化;

官网 https://miso.readthedocs.io/en/fastmiso/#visualizing-and-plotting-miso-output

1.软件安装

conda install gcc
pip install rmats2sashimiplot==2.0.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install misopy -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install bsddb==1.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

此外,还需要一下软件的支持

  • Python 2.6或更高版本;
  • numpy(1.5以上) SciPy
  • pysam(0.6以上) 处理SAM / BAM文件samtools;
  • matplotlib 与sashimi_plot绘图一起使用

分析流程


总流程

2.准备文件

  • 基因组gff;
  • sort.bam
  • diff.txt
  • miso_setting.txt(default文件,部分#参数可改)
[data]
filter_results = True
min_event_reads = 20 #可变剪接最低reads数目
strand = fr-firststrand #一链特异性
[sampler]
burn_in = 500
lag = 10
num_iters = 5000
num_processors = 4 #线程数

3.分析流程

导入安装的环境变量后进行分析;

3.1.建立索引,计算均值和sd
index_gff --genome.gff index_db/ #1cpu,5min
summarize_miso --summarize-samples Sample_2F_1/ summary_Sample_2F_1/ #30min
计算结果
3.2.bam文件进行分析
miso --run
index_db \
Sample1.sorted.bam \  
--output-dir out_dir \
--read-len 150 \ 
--paired-end 200 46.2 \
--settings-filename miso_settings.txt
summarize_miso --summarize-samples Sample1/ summary_Sample1/  #4cpu,40min

3.3 差异分组间分析
compare_miso --compare-samples control case/ comparisons/ #20min

3.4 . 对结果进行过滤(报错暂停)

filter_events \
--filter  case_vs_control.miso_bf \
--num-inc 1 \
--num-exc 1 \
--num-sum-inc-exc 10 \
--delta-psi 0.20 \
--bayes-factor 10 \
--output-dir filter_dir

3.5.1 rMATS结果可视化

常规rMATS分析结果中,每组的分析结果都独立保存为很多文件,作图可选用如下两类文件;
AS_Event.MATS.JC.txt和AS_Event.MATS.JCEC.txt,这里JC和JCEC对应的是isoform effective length的两种计算方式。五种可变剪接共有10个文本结果。


结果文件

注意对应rMATS结果的算法。

rmats2sashimiplot \
--b1 Sample1.bam,Sample2.bam \
--b2  NC1.bam,NC2.bam \
--l1 Sample --l2 NC --exon_s 1 --intron_s 5 --min-counts 1 \
-t Sample-vs-NC -e test.MXE.JC.txt  -o sashimiplot_dir
bam文件

注意两图的染色体名称要一致。

MXE文件

3.5. 2常规结果可视化

sashimi_plot \
--plot-event "chr1:7778:7924:-@chr1:7096:7605:-@chr1:6717:6918:-" \
index_db/ \
sashimi_plot_settings.txt  \
--output-dir out_dir
覆盖度可视化结果

两个外显子之间的连线表明该可变剪接位置;数值表明多少reads支持改可变剪接,即这条reads刚好覆盖在可变剪接位置上。


image.png
上一篇下一篇

猜你喜欢

热点阅读