比较与进化基因组学

28高通量测序-k均值聚类

2021-01-24  本文已影响0人  不到7不改名

k均值聚类

​ 假设您有一些数据可以绘制在一条直线上,并且您知道需要将其放入3个聚类中。也许它们是三种不同类型的肿瘤或其他细胞的测量值。为此,我们将使用K-means clustering。

步骤1:选择要在数据中标识的聚类数量。这就是“K”中的k均值聚类。在这种情况下,我们选择K=3。也就是说,我们要确定3个分类。有一种更有趣的方法来为K选择一个值,但我们稍后会讨论它。

image-20210109130447210.png

步骤2:随机选取3个不同的数据点

步骤3:测量第一点到三个初始聚类的距离

image-20210109130650038.png

步骤4:将第一个点分配到最近的聚类。在本例中,最近的聚类是蓝色聚类。现在我们对下一个点重复步骤3、4

image-20210109130909573.png

步骤5:计算每个分类的均值,然后我们使用平均值重复刚才所做的(测量和聚类)。直到最后一次聚类没有发生任何变化,我们就完成了。

image-20210109130946701.png image-20210109131103583.png

K-means聚类与我们肉眼所做的相比是非常糟糕的。

image-20210109131324998.png

​ 我们可以通过增加每个聚类内的变异(variation)来评估聚类的质量。因为K-means聚类无法“看到”最好的聚类,它唯一的选择是跟踪这些聚类,以及它们的总变异,然后在不同的起点重新做整个事情。

​ 让我们回到一开始,K-means聚类选取3个初始聚类,然后对剩下的所有点进行聚类,计算每个聚类的均值,然后根据新的均值重新聚类。它不断重复,直到聚类不再变化。

​ 现在数据聚在一起了,我们把每个聚在一起的变化加起来。

image-20210109131645054.png

然后,在做一次。此时,K-means聚类知道第2个聚类是目前为止最好的聚类。但是它不知道它是不是最好的,所以它会多做几次(你让它做多少它就做多少),然后再回来如果它仍然是最好的,就返回它。

image-20210109131822159.png

问题:你如何计算K的值?

image-20210109133631817.png image-20210109133653465.png

​ 每次我们添加一个新的分类,每个分类内的总变化都比以前小。当每个聚类中只有一个点时,变异为0。然而,如果我们画出每个K值的方差减少,当K=3时,变异有很大的减小,但是在K=3之后,变异的减小就没有那么快了。这被称为“肘部图”,你可以通过在图中找到“肘部”来选择“K”。

image-20210109133925105.png

k均值聚类与层次聚类有什么不同?

image-20210109134145160.png

如果我们的数据没有绘制在数轴上怎么办?

​ 就像之前一样,你随机选三个点,我们用欧几里得距离,然后,就像之前一样,我们分配指向最近的聚类。然后,就像之前一样,我们计算每个分类的中心并重新聚类。

image-20210109134458048.png

如果我的数据是热图怎么办?

​ 如果我们只有两个样本,我们可以把它们重命名为X和y,然后我们把数据画成x / y图。那我们就能像之前一样进行聚类。注意:我们实际上不需要为了聚类数据而绘制数据。我们只需要计算物体之间的距离

image-20210109140439297.png
image-20210109140545874.png
上一篇下一篇

猜你喜欢

热点阅读