Geo Word Clouds

2017-05-12  本文已影响0人  xiaoguo16

背景:

有许多文本数据含有重要的地理信息,而现有的词云方法无法显示空间信息。
Geo word clouds:不但可以显示词频还可以显示词之间的空间关联。

输入:n个点(带有地理位置);
M:需要填充的地理区域;
M':填充完后的地理区域;

2.1 Requirements

Paste_Image.png Paste_Image.png

2.2 Measures:

A.

Paste_Image.png

( p:点;Cp:p所属的簇;Word(Cp):矩形限位框。)
在边框上或者内部的霍斯多夫距离为0。
为了测量词的shapes是否和它的点很好的吻合,需要用到Hausdorff距离。
Coverage error:
The sum of the error for all points measures how well all shapes in M' cover the whole data set.(可视化后的shapes结果与数据的吻合度,可以理解为聚类后的框与其可视化后的shapes的吻合度)

B.

Paste_Image.png

为了给词定义合适的位置,有时候需要进行词的缩放,因此M2表示的就是词的大小能够代表其点数的程度。比如对于有k个点的词,缩放比例为x,则not represented的点数为|k-k*x| (Rep(c):簇c中not represented 的点数。C:所有簇。),因此缩小词会使得该值变大。

C.

Paste_Image.png

How well does M' resemble M.
M'与M的差值。

3.布局算法

k-means算法将同一标签的点聚成簇,每一个簇放一个单词。单词的大小取决于簇中点的数量。
clustering之后对每一个簇确定一个旋转角度。对簇中的点确定特征向量,利用特征向量中的principal component。确定这些点的特征向量并使用向量中的主成分。角度的选取要与特征向量保持相近。旋转角度:正交、45度、10度。

Paste_Image.png

词的位置:贪心算法。根据簇的大小(簇中包含的点数)进行排序,位置由大到小放置避免对于更大的簇会有大的误差。按像素进行词的位置的计算,没有被占据的像素可以利用。
如果词无法放置在准确的位置,我们需要按比例缩减它,这样词的中心距离簇的中心就会更小。则需要对其进行重新的大小排序。

Paste_Image.png

Optimal size的设定(R4):(AM 为由像素计算的M)

Paste_Image.png

4.着色:

为了满足R6和R7.

Paste_Image.png

根据Hue光谱,颜色的排布随词的大小排。
相似大小的单词颜色要隔c个,以防相似大小的词颜色相似。因此c需要大于1,图中为c=3的情况。这样两个相邻的单词得到相同颜色的概率大大缩减。

5.实验

数据:
1.法国:125个不同的标签,关于奶酪品种
2.英国和爱尔兰:126个来自网络相册的不同的照片标签,545140个图像。
实现:Sage Math Cloud(基于Python的软件包)

5.1Allowed rotations(是否需要更多的角度选择?)

Paste_Image.png

90度的coverage error(所有点距离限位框的距离和,与其原定位置的差值)最小,因为90度时空间整齐,选择性强,使得shapes与其原定位置相差小。
Words not represented 变大,因为在45度和10度时,把所有词放在原定位置有困难,因此需要缩小一些词,因此words not represented会更多。
Symmetric difference在90度时最小,因为90度时更紧密,使得M'与M差值最小。

5.2 Initial font size

Paste_Image.png

100%到90% coverage error(所有点距离限位框的距离和,与其原定位置的差值)变大,因为所有字都变小,聚类的覆盖的点就变少了。90%到80%变小,因为可视化后的词比预定位置更接近。
随着字体变小,words not represented 就变小了。
随着字体变小,symmetric difference变大。(可以理解为:所有词都变小,地图上的总覆盖变小,因此M'与M相差较大)

5.3 Clustering

Paste_Image.png Paste_Image.png

5.4 Word placement

Paste_Image.png

5.5 Running time

法国:30分钟(90度)
英国和爱尔兰:60分钟(90度)
如果把角度变为10度,时间增加了60%。
数据的预处理(聚类和归一化)仅分别花费了几秒和几分钟。

Conclusions

上一篇 下一篇

猜你喜欢

热点阅读