生信基础知识

contig,scaffold,N50,L50

2020-02-24  本文已影响0人  Thinkando

scaffold其实是基因组组装时的概念。涉及到的相关概念如下:

image.png
image.png

链接:https://www.zhihu.com/question/36452709/answer/683390664

上图就是大多数时候可能得到的情况,除了少数极长的scaffold外,就是一大堆零碎的小片段。这个时候如果用平均数来算,为(10+5+2+1+1+1+1)/7=3,有点惨不忍睹……
于是就有了N50和L50,计算过程为:
① 将序列从大到小排列。
② 计算总序列长度。
③ 从最大的序列开始累加。
④ 当加到某一个序列的总和,刚好超过总序列长度的一半时,此序列的长度即为N50,这是第几条序列则为L50。
在上面的例子中,总长度为21,总长度的一半为10.5。第一条序列为10bp,总和为10bp <10.5bp,不满足终止条件;第二条序列为5bp,总和为10+5=15bp > 10.5bp,计算结束。此时N50 = 5bp,L50=2。

上一篇 下一篇

猜你喜欢

热点阅读