生信分析工具包

rnaflow 一个新的全自动RNA_Seq数据分析流程

2021-01-14  本文已影响0人  挖泥种地

      最近接了个帮学院其他老师分析水稻转录组的活,但是媳妇赶着毕业,要帮她搞文章和数据,没空干这个,自己虽然会分析转录组,但是一直没有实现自动化办事,所以在谷歌学术瞎逛,想找一个rnaseq的pipline,结果就被我找到了这个玩意,rnaflow,一个基于nextfolw的打包一大堆常用rnaseq分析软件且能够自动化分析、自动化出图的好玩意。

      文章发表在Genes,RNAflow: An Effective and Simple RNA-Seq Differential Gene Expression Pipeline Using Nextflow ,2020年12月发布的,虽然是个MDPI杂志社的文章,但是试用以后感觉还是很不错的,主要是满足了懒人的需求。软件在著名的同性交友网站Gayhub下载到,写这个文章的时候版本最新为v1.2,下面简单介绍一下。

文章发表页面

数据的分析流程全都是业界常用的这些玩意。

分析流程

整个软件的流程基于nextflow和conda,如果需要denovo组装的话还需要安装Singularity ,大体上来开始需要3步:

1 安装conda,并且加入bioconda源,自己查一下吧;

2 在conda里安装nextflow; conda install nextflow

3 运行 nextflow pull hoelzer-lab/rnaflow 完成基本流程安装,然后再运行软件自己检测脚本,脚本会自动完成从去rRNA、质检、比对、计数到差异基因和绘图全流程的软件

nextflow run hoelzer-lab/rnaflow -profile test,conda,local

...

正式进行全流程操作的时候,需要准备两个文件:

1  Read files (required)

分为单端和双端两种,所有数据似乎必须为压缩好的gz格式,代号绝对路径,单端的输入文件格式为,命名为input.csv:

--reads input.csv

单端输入格式

双端的为:

双端输入格式

2 准备需要的参考基因组和对应的注释文件,看样子是要求GTF,不知道GFF可不可以,我自己还在试验:

--genome fastas.csv

参考基因组文件

--annotation gtfs.csv

参考基因组的注释文件

3 准备妥当以后,就可以开始运行命令了

nextflow run hoelzer-lab/rnaflow --reads input.csv --genome fastas.csv --annotation gtfs.csv --max_cores 6 --cores 2

如果是双端数据 需要指定参数 --mode paired 否则会运行失败。

下图是我正在跑的,还没结果,我这个配置需要1整天才有结果。

      目前遇到的最大问题是,该流程所有软件都会需要联网重新装一遍,但是bioconda在我这非常卡,需要反复运行命令才能完成全部虚拟环境和软件的安装,就这第一步我搞了1个晚上。

最后输出的结果是1个大文件夹,里面包含了各种文件。

普通物种基于pathway的分析是不会有的,这个管道只支持搞人,大鼠,小鼠以及大肠杆菌的分析,所以做其他物种的,需要自己想办法。作者说在未来会增加一些其它物种的支持。

等我自己的数据跑完以后我再来写个新的总结。

上一篇下一篇

猜你喜欢

热点阅读