基因组注释③:RepeatScout的使用
重复序列注释的思路:
①使用LTR_Finder软件 → 基于结构预测 → 得到XX.finder.scn文库文件;
②使用RepeatScout软件 → 基于从头预测 → 得到XX_repeat_filtered1文库文件;
③将上述两个文库文件经过PASTEClassifier对数据库进行分类后,与Repbase的数据库合并,三库合一,做为最终的重复序列数据库;
④使用RepeatMasker软件对三库合一的最终数据库进行重复序列的预测,最终可能生成的是out文件。
保险起见,我又用conda安装了LTR_Finder,得到了curated.finder.scn文件。接下来就是RepeatScout的运行。
此处参考教程:
repeatscout步骤_word文档在线阅读与下载_文档网
重复序列屏蔽第二讲-用repeatscount来构建重复序列文库 | 生信菜鸟团
(主要是前两个搭配着看,第一个尤其注意看图)
1. 安装好RepeatScout之后,用build_lmer_table命令把整个基因组生成一个频率表格,把所有有过重复的kmer都找出来。
这里的build_lmer_table和RepeatScout都是在安装RepeatScout软件的过程中生成的,如下图所示:

并且在调用build_lmer_table时要注意加上这个文件所在的路径,查看build_lmer_table使用方法的代码如下:

我这里将 -l 这一参数删去了,删掉之后应该是默认参数了,其他网络上的教程里这里设置成了14。
不带 -l 的代码:
/home/anaconda3/bin/build_lmer_table -sequence curated.fasta -freq curated.fq
(粗体分别表示输入文件名和输出文件名,build_lmer_table前面是它所在的路径 )
带 -l 的代码:
/home/anaconda3/bin/build_lmer_table -l 14 -sequence curated.fasta -freq curated.fq


输入fasta文件,第一步结束后得到fq文件。
2. 用RepeatScout命令,根据生成的频率表格和基因组序列,产生一个包含有所有的能找到的重复元件的文件。
(同理,查看RepeatScout使用方法的代码也和上面差不多:
/home/anaconda3/bin/RepeatScout)
/home/anaconda3/bin/RepeatScout -sequence curated.fasta -freq curated.fq -output curated_repeat
输入fasta文件和第一步生成的fq文件,这一步得到了repeat文件。
此外在这里想查看repeat文件时,可输入more curated_repeat 显示其文件内容,按键盘上的 Q 键退出。
3. 用filter-stage-1.prl这个脚本,过滤掉低复杂度和串联重复元件。
filter-stage-1.prl也是在安装过程中在我们文件夹里就有的文件:

/home/anaconda3/bin/filter-stage-1.prl curated_repeat >curated_repeat_filtered1
但是在运行这个代码的过程中出错了,均提示以下信息:

主要看错误提示信息的第一行,提示缺少一些东西。
后面我上网搜索了一下,应该是与perl CPAN 模块有关,缺少对应的perl模块。于是我先用以下命令安装了提示中缺少的模块:
/home/anaconda3/bin/cpan File::Which module
装完上面这个模块,依然提示一样的错误信息。于是又装了下面这个模块:
/home/anaconda3/bin/cpan File::Which
此处参考教程:
之后还是提示和上面一样的错误信息,于是我在百度之后又用conda安装了perl-cpan-shell软件。
此处参考教程:
上面一顿乱装之后,居然很神奇的能运行filter-stage-1.prl这个脚本了……

所以我推测,正确的安装步骤应该是先安装perl-cpan-shell,再安装File::Which module 和 File::Which。尤其是前两个。
最终顺利的得到curated_repeat_filtered1文件。
网上的参考教程在运行完上面的三个步骤后,又进行了第四步:
用RepeatMasker来把这个得到的repeat_filtered1文件当作文库运行生成一个out文件。
这一步我还没有进行,阅读指导文件,应该是要把三库合一并且进行分类后再使用RepeatMasker对数据库进行重复序列的预测,生成out文件。
等完成三库合一和分类操作后,再来做这一步吧。
碎碎念时间:
写完这篇记录是星期五晚上十一点半了,咸鱼如我今天成功的把办公室里的师姐熬走了……现在办公室只有我一个人,最近科研热情还行,做出东西来也很开心,但长大之后好像快乐就变得不那么容易和奢侈。
前几天都还蛮开心的,今天科研过程中运行代码出现问题后也没有轻易的向师兄师姐求助,自己上网百度之后尝试着解决,居然也解决出来了。其实相处过程中也渐渐了解到,师兄师姐不会的、在安装过程中出现的问题也是自己试着先百度着解决。所以今天晚上我自己解决问题之后还蛮开心的,感觉自己有点大脑,学会思考了。
我觉得科研过程中,学会向别人求助,还有学会先不要向别人求助,这种平衡是很珍贵和不容易的。夸夸自己!
可是我今天明明应该挺开心的,但我今天晚上还是不开心大于开心的情绪。有时候大脑感受不到自己不开心,我也不知道自己为什么不开心。
最近每天做出东西来都会记录在这里,我这个鱼的记忆如果当天犯懒第二天就会忘了前一天怎么做的,还是记下来好啊。记录的时候听的 sold out 和 Black Magic 这两首循环播放的歌,最近很沉迷于这两首歌,好好听!
碎碎念就记录到这里吧!马上要十二点了,要赶紧回宿舍,回去打两把游戏。未来这几天有两天半小假期,希望自己能有个好心情!