2019-01-21 k均值--k的选择
2019-01-21 本文已影响0人
奈何qiao
目前用来决定聚类数目的最常用的方法仍然是通过看可视化的图,或者看聚类算法的输出结果,或者其他一些东西来手动地决定聚类的数目。
肘部法则 (Elbow Method)
肘部法则聚类数目的正确选择是曲线的肘点。就是说畸变值快速地下降直到K等于3这个点,在这之后就下降得非常慢,那么我们就选K等于3。
事实证明肘部法则并不那么常用。事实上你最后得到的曲线通常看起来是更加模棱两可的,也许没有一个清晰的肘点,而畸变值像是连续下降的,此时肘部法则并不适用。
例题 K-均值聚类算法--后续目的通常人们使用K-均值聚类算法是为了某些后面的用途,或者说某种下游的目的。例如市场分割。具体的T恤尺寸这个例子, 我想要决定3种T恤尺寸, 所以选择 K=3,有小号中号大号三类T恤。 或者可以选择 K=5,特小号小号中号大号和特大号尺寸的T恤。
大部分时候聚类数目仍然是通过手动,人工输入或我们的洞察力来决定,有时可用肘部法则,另外聚类的数目是多少才适合你运行K-均值聚类的后续目的是最主要考虑的。