4️⃣ 核酸序列特征分析(8):重复序列的查找
2019-01-26 本文已影响57人
Y大宽
[序列比对和序列特征分析总目录](https://www.jianshu.com/p/878f2b2495ae
基因组序列主要构成成分是基因序列,重复序列和基因间序列。
基因组注释包括基因组结构注释和基因组功能注释
结构注释的核心是基因识别,为了提高基因识别效率需要首先寻找并标记去除
重复的和低复杂性的序列。
什么是重复序列?
重复序列(repetitive sequence)是在基因组中不同位置出现的相同或对称性序列片段,一般不编码多肽。组织形式有两种:串联重复序列和分散重复序列。前者成蔟存在于染色体的特定区域,后者分散于染色体各位点。
存在哪里?
一般在顺式调控元件如启动子,增强子,终止子等出大量发行,真核生物中广泛分布。
分类
大致分三类:
- 低度重复序列
- 中度重复序列
- 高度重复序列
特点
GC含量低,AT含量高,3'和5'端有直接重复序列存在,有利形成环形结构。
常用数据库
-
GIRI的RepBase:常用的真核生物DNA重复序列数据库
-
RepeatMasker:常用的重复序列分析工具
-
ALU数据库:人和灵长类Alu重复片段
-
LINE-1数据库:
-
STR数据库:短的串联重复序列数据库,不再提供服务
1 RepeatMasker工具
这个工具有webserver版本和命令行版本
Using and Understanding RepeatMasker
RepeatMasker Web Server
RepeatMasker linux
RepeatMasker Web Server
image.png