基因组注释③：RepeatScout的使用

2022-04-15 本文已影响0人恭弥家的凤梨君

重复序列注释的思路：

①使用LTR_Finder软件 → 基于结构预测 → 得到XX.finder.scn文库文件；

②使用RepeatScout软件 → 基于从头预测 → 得到XX_repeat_filtered1文库文件；

③将上述两个文库文件经过PASTEClassifier对数据库进行分类后，与Repbase的数据库合并，三库合一，做为最终的重复序列数据库；

④使用RepeatMasker软件对三库合一的最终数据库进行重复序列的预测，最终可能生成的是out文件。

保险起见，我又用conda安装了LTR_Finder，得到了curated.finder.scn文件。接下来就是RepeatScout的运行。

此处参考教程：

repeatscout步骤_word文档在线阅读与下载_文档网

RepeatScou操作步骤(说明) - 百度文库

重复序列屏蔽第二讲-用repeatscount来构建重复序列文库 | 生信菜鸟团

（主要是前两个搭配着看，第一个尤其注意看图）

1. 安装好RepeatScout之后，用build_lmer_table命令把整个基因组生成一个频率表格，把所有有过重复的kmer都找出来。

这里的build_lmer_table和RepeatScout都是在安装RepeatScout软件的过程中生成的，如下图所示：

截取了部分文件夹里的内容

并且在调用build_lmer_table时要注意加上这个文件所在的路径，查看build_lmer_table使用方法的代码如下：

代码见第一行

我这里将 -l 这一参数删去了，删掉之后应该是默认参数了，其他网络上的教程里这里设置成了14。

不带 -l 的代码：

/home/anaconda3/bin/build_lmer_table -sequence curated.fasta -freq curated.fq

（粗体分别表示输入文件名和输出文件名，build_lmer_table前面是它所在的路径）

带 -l 的代码：

/home/anaconda3/bin/build_lmer_table -l 14 -sequence curated.fasta -freq curated.fq

运行中

运行结束

输入fasta文件，第一步结束后得到fq文件。

2. 用RepeatScout命令，根据生成的频率表格和基因组序列，产生一个包含有所有的能找到的重复元件的文件。

（同理，查看RepeatScout使用方法的代码也和上面差不多：

/home/anaconda3/bin/RepeatScout）

/home/anaconda3/bin/RepeatScout -sequence curated.fasta -freq curated.fq -output curated_repeat

输入fasta文件和第一步生成的fq文件，这一步得到了repeat文件。

此外在这里想查看repeat文件时，可输入more curated_repeat 显示其文件内容，按键盘上的 Q 键退出。

3. 用filter-stage-1.prl这个脚本，过滤掉低复杂度和串联重复元件。

filter-stage-1.prl也是在安装过程中在我们文件夹里就有的文件：

文件夹局部截图

/home/anaconda3/bin/filter-stage-1.prl curated_repeat >curated_repeat_filtered1

但是在运行这个代码的过程中出错了，均提示以下信息：

错误信息提示

主要看错误提示信息的第一行，提示缺少一些东西。

后面我上网搜索了一下，应该是与perl CPAN 模块有关，缺少对应的perl模块。于是我先用以下命令安装了提示中缺少的模块：

/home/anaconda3/bin/cpan File::Which module

装完上面这个模块，依然提示一样的错误信息。于是又装了下面这个模块：

/home/anaconda3/bin/cpan File::Which

此处参考教程：

Proovread安装与试用_wangchuang2017的博客-CSDN博客_proovread

之后还是提示和上面一样的错误信息，于是我在百度之后又用conda安装了perl-cpan-shell软件。

此处参考教程：

Can't locate IO/File.pm in @INC 这是什么错误啊

上面一顿乱装之后，居然很神奇的能运行filter-stage-1.prl这个脚本了……

脚本运行了一系列之后，结束的最后两行截图

所以我推测，正确的安装步骤应该是先安装perl-cpan-shell，再安装File::Which module 和 File::Which。尤其是前两个。

最终顺利的得到curated_repeat_filtered1文件。

网上的参考教程在运行完上面的三个步骤后，又进行了第四步：

**用RepeatMasker来把这个得到的repeat_filtered1文件当作文库运行生成一个out文件。**

这一步我还没有进行，阅读指导文件，应该是要把三库合一并且进行分类后再使用RepeatMasker对数据库进行重复序列的预测，生成out文件。

等完成三库合一和分类操作后，再来做这一步吧。

碎碎念时间：

写完这篇记录是星期五晚上十一点半了，咸鱼如我今天成功的把办公室里的师姐熬走了……现在办公室只有我一个人，最近科研热情还行，做出东西来也很开心，但长大之后好像快乐就变得不那么容易和奢侈。

前几天都还蛮开心的，今天科研过程中运行代码出现问题后也没有轻易的向师兄师姐求助，自己上网百度之后尝试着解决，居然也解决出来了。其实相处过程中也渐渐了解到，师兄师姐不会的、在安装过程中出现的问题也是自己试着先百度着解决。所以今天晚上我自己解决问题之后还蛮开心的，感觉自己有点大脑，学会思考了。

我觉得科研过程中，学会向别人求助，还有学会先不要向别人求助，这种平衡是很珍贵和不容易的。夸夸自己！

可是我今天明明应该挺开心的，但我今天晚上还是不开心大于开心的情绪。有时候大脑感受不到自己不开心，我也不知道自己为什么不开心。

最近每天做出东西来都会记录在这里，我这个鱼的记忆如果当天犯懒第二天就会忘了前一天怎么做的，还是记下来好啊。记录的时候听的 sold out 和 Black Magic 这两首循环播放的歌，最近很沉迷于这两首歌，好好听！

碎碎念就记录到这里吧！马上要十二点了，要赶紧回宿舍，回去打两把游戏。未来这几天有两天半小假期，希望自己能有个好心情！

基因组注释③：RepeatScout的使用

1. 安装好RepeatScout之后，用build_lmer_table命令把整个基因组生成一个频率表格，把所有有过重复的kmer都找出来。

2. 用RepeatScout命令，根据生成的频率表格和基因组序列，产生一个包含有所有的能找到的重复元件的文件。

3. 用filter-stage-1.prl这个脚本，过滤掉低复杂度和串联重复元件。

**用RepeatMasker来把这个得到的repeat_filtered1文件当作文库运行生成一个out文件。**

猜你喜欢

热点阅读