真菌基因组基因组学基因组组装

基因组注释③:RepeatScout的使用

2022-04-15  本文已影响0人  恭弥家的凤梨君

重复序列注释的思路:

①使用LTR_Finder软件 → 基于结构预测 → 得到XX.finder.scn文库文件;

②使用RepeatScout软件 → 基于从头预测 → 得到XX_repeat_filtered1文库文件;

③将上述两个文库文件经过PASTEClassifier对数据库进行分类后,与Repbase的数据库合并,三库合一,做为最终的重复序列数据库;

④使用RepeatMasker软件对三库合一的最终数据库进行重复序列的预测,最终可能生成的是out文件。


保险起见,我又用conda安装了LTR_Finder,得到了curated.finder.scn文件。接下来就是RepeatScout的运行。

此处参考教程:

repeatscout步骤_word文档在线阅读与下载_文档网

RepeatScou操作步骤(说明) - 百度文库

重复序列屏蔽第二讲-用repeatscount来构建重复序列文库 | 生信菜鸟团

(主要是前两个搭配着看,第一个尤其注意看图)

1. 安装好RepeatScout之后,用build_lmer_table命令把整个基因组生成一个频率表格,把所有有过重复的kmer都找出来。

这里的build_lmer_table和RepeatScout都是在安装RepeatScout软件的过程中生成的,如下图所示:

截取了部分文件夹里的内容

并且在调用build_lmer_table时要注意加上这个文件所在的路径,查看build_lmer_table使用方法的代码如下:

代码见第一行

我这里将 -l 这一参数删去了,删掉之后应该是默认参数了,其他网络上的教程里这里设置成了14。

不带 -l 的代码:

/home/anaconda3/bin/build_lmer_table -sequence curated.fasta -freq curated.fq

(粗体分别表示输入文件名和输出文件名,build_lmer_table前面是它所在的路径 )

带 -l 的代码:

/home/anaconda3/bin/build_lmer_table -l 14 -sequence curated.fasta -freq curated.fq

运行中 运行结束

输入fasta文件,第一步结束后得到fq文件。

2. 用RepeatScout命令,根据生成的频率表格和基因组序列,产生一个包含有所有的能找到的重复元件的文件。

(同理,查看RepeatScout使用方法的代码也和上面差不多:

/home/anaconda3/bin/RepeatScout

/home/anaconda3/bin/RepeatScout -sequence curated.fasta -freq curated.fq -output curated_repeat

输入fasta文件和第一步生成的fq文件,这一步得到了repeat文件。

此外在这里想查看repeat文件时,可输入more curated_repeat 显示其文件内容,按键盘上的 Q 键退出。

3. 用filter-stage-1.prl这个脚本,过滤掉低复杂度和串联重复元件。

filter-stage-1.prl也是在安装过程中在我们文件夹里就有的文件:

文件夹局部截图

/home/anaconda3/bin/filter-stage-1.prl curated_repeat >curated_repeat_filtered1

但是在运行这个代码的过程中出错了,均提示以下信息:

错误信息提示

主要看错误提示信息的第一行,提示缺少一些东西。

后面我上网搜索了一下,应该是与perl CPAN 模块有关,缺少对应的perl模块。于是我先用以下命令安装了提示中缺少的模块:

/home/anaconda3/bin/cpan File::Which module

装完上面这个模块,依然提示一样的错误信息。于是又装了下面这个模块:

/home/anaconda3/bin/cpan File::Which

此处参考教程:

Proovread安装与试用_wangchuang2017的博客-CSDN博客_proovread

之后还是提示和上面一样的错误信息,于是我在百度之后又用conda安装了perl-cpan-shell软件

此处参考教程:

Can't locate IO/File.pm in @INC 这是什么错误啊

上面一顿乱装之后,居然很神奇的能运行filter-stage-1.prl这个脚本了……

脚本运行了一系列之后,结束的最后两行截图

所以我推测,正确的安装步骤应该是先安装perl-cpan-shell,再安装File::Which module 和 File::Which。尤其是前两个。

最终顺利的得到curated_repeat_filtered1文件。


网上的参考教程在运行完上面的三个步骤后,又进行了第四步:

用RepeatMasker来把这个得到的repeat_filtered1文件当作文库运行生成一个out文件。

这一步我还没有进行,阅读指导文件,应该是要把三库合一并且进行分类后再使用RepeatMasker对数据库进行重复序列的预测,生成out文件。

等完成三库合一和分类操作后,再来做这一步吧。


碎碎念时间:

       写完这篇记录是星期五晚上十一点半了,咸鱼如我今天成功的把办公室里的师姐熬走了……现在办公室只有我一个人,最近科研热情还行,做出东西来也很开心,但长大之后好像快乐就变得不那么容易和奢侈。

       前几天都还蛮开心的,今天科研过程中运行代码出现问题后也没有轻易的向师兄师姐求助,自己上网百度之后尝试着解决,居然也解决出来了。其实相处过程中也渐渐了解到,师兄师姐不会的、在安装过程中出现的问题也是自己试着先百度着解决。所以今天晚上我自己解决问题之后还蛮开心的,感觉自己有点大脑,学会思考了。

       我觉得科研过程中,学会向别人求助,还有学会先不要向别人求助,这种平衡是很珍贵和不容易的。夸夸自己!

       可是我今天明明应该挺开心的,但我今天晚上还是不开心大于开心的情绪。有时候大脑感受不到自己不开心,我也不知道自己为什么不开心。

       最近每天做出东西来都会记录在这里,我这个鱼的记忆如果当天犯懒第二天就会忘了前一天怎么做的,还是记下来好啊。记录的时候听的 sold out 和 Black Magic 这两首循环播放的歌,最近很沉迷于这两首歌,好好听!

       碎碎念就记录到这里吧!马上要十二点了,要赶紧回宿舍,回去打两把游戏。未来这几天有两天半小假期,希望自己能有个好心情!

上一篇下一篇

猜你喜欢

热点阅读