bioinfo1 生物信息学序列比对sequence alignment

序列比对其他相关问题

2018-02-11  本文已影响18人  思考问题的熊

全局比对 Global Alignment

由芝加哥的Needleman和Wunsch两位于上个世纪70年代初提出,常被称之为Needleman-Wunsch算法。算法针对用户指定的打分函数,确定性地找出两条序列间的最优比对。

Needle-Wunsch 算法对两条序列所有残基进行全局比对的局限性。

局部比对 Local Alignment

1981年,物理学家Temple Smith和数学家Michael Waterman在Journal of Molcular Biology上发表了一篇仅有四页的文章,提出Smith-Waterman局部比对算法

race back begins at the highest score inthe matrix and continues until you reach 0。And also the secondary best alignment

img

核心思想是给分数增加了下限0分

所有的回溯都是局部的,所有的最终比对也是局部的。引入止损下限,差异扩大之后重启比对,找到局部水平的相似性

空位罚分的改进

Affine gap penalty

有限向量机


alt

扩展公式

alt

全局比对的时间复杂性

O(mn) 正比于m*n

全基因组比对

同源homology的分类

NGS: Sequence alignment

Map the large numbers of short reads to a reference genome

short: greater search sensitivity

large: faster search speed

In-exact alignment

BWA和bowtie的相关算法,大大减少了对服务器的要求

如何快速的知道某段序列大约在基因组的哪个位置

  1. 如何定义大约这个概念
  1. Efficiency depends on the data characteristics & goals

BWT算法

核心是绕最后一个序列转圈

alt

Suffix(后缀) Arrays

类似于电话本中的索引结构

What if we need to check many queries

Sorting the genome: Suffix Array (Manber & Myers1991)

alt

所有具有相同prefix(前缀)的suffixes(后缀)会聚在一起,这样就可以进行类似于二分法的排除

全基因组建立index

alt alt

效率

Total Runtime: O(m log n)

Searching the array is very fast, but it takes time to construct

BLAST/Dot matrix

Indexing-based local alignment

alt

Basic Local Alignment Search Tool

围绕最优比对路径进行计算

BLAST Ideas 核心思想: Seeding‐and‐extending

将序列切分,在数据库中定位候选序列和位置

alt

得到候选序列和查询序列的heatmap

去掉零散的hit,直留下对角线,形成hit cluster

以hit cluster为基础向左右进行延伸直到分数不符合要去

在扩展的区域进行局部比对

alt

blast加速

分数评估,避免随机因素

E value

alt

在随机情况下获得比当前分数高的可能比对条数,不是概率是个望值。p为0.05时,E也是0.05。

BLAST是一种启发式算法,不确定有最优解

alt

只在有效区域应用动态规划算法


加入靠谱熊基地,和大家一起交流
上一篇 下一篇

猜你喜欢

热点阅读