Clickhouse实践之地理信息数据处理

2017-12-31 本文已影响581人 c3729438b799

在地理信息世界，找到一个小的数据集是很容易的，例如excel文件的客户端位置，一个geojson带有数千个星巴克咖啡店的坐标，这些案例足够处理，甚至浏览器都能够加载、处理和可视化.

但是当我们讨论到核心的地理信息处理挑战时, 我们面对海量处理问题. 例如, raster 数据来自卫星影像 (地质持续监控), 一个大的地籍shapefiles 带有数百万个小的polygons, 或者 .csv files 通过 IoT 物联网生成(他们是实际的 GPS 追踪，有大量的挂载数据).

有大量的 CSVs 在 S3 云存储中，保存类 GPS数据. 以NYC Taxi 数据作为例子, 包含了所有NYC 出租车的数据. 这是大数据界的基准测试数据; 你应该看看Mark Litwintschik写的帖子，质量很好.

因此，通常情况下, 当你分析地理信息数据时，你应该停止使用PostgreSQL 和 PostGIS. 用SQL查询地理信息的数据不能与其他工具很好匹配. 另一方面, PostgreSQL对大数据量的处理确实不佳. 让我们稍微解释一下… 你能够在PostgreSQL中加载大量的数据，同时建立BRIN 索引, 你能够选择一小部分数据. 但是当你聚合大量数据时. PostgreSQL不是最佳选择，这就是为什么产生了 citusdb, greenplum or Amazon redshift 这样的方案，使用列式存储，并行处理，下推操作来提升性能. 因此我们使用支持 PostGIS的PostgreSQL ，另一方面，我们使用速度足够快，但部分支持地理空间信息处理的分布式数据库来支持大数据量处理 (mapd, clickhouse, vertica or druiddb) .

让我们回到NYC Taxi 数据集上，当你想要知道某特定区域的位点的平均数量, PostgreSQL 使用 “ages”. 让我们详解在PostgreSQL(9.6)上的一些查询:

[local] postgres@nyc-taxi-data=# select count(1) from trips;
count
──────────
78424550
(1 row)
Time: 25347.000 ms

如果你想要找到在时代广场方圆300公里内有多少打车发生:

[local] postgres@nyc-taxi-data=# select count(1) from trips where st_dwithin(the_geom, 'SRID=4326;POINT(-73.985195 40.75896)', 180*300/(6371*1000*pi()));

count
────────
797801
(1 row)
Time: 76552.877 ms

(我们使用角来计算一个平方的距离，如果是300公里我们使用公式distance = arc*radious)

76 秒看起来耗时较长，肯定有一些方法来优化，调优PostgreSQL 或者使用并行查询, 但是我们不能获得很大的性能提升. 因此，即时我们使用了32核的高端服务器，那么对于性能提升也是有限的，整个数据集放在内存中，理论上我们可以达到76s/32 ~ 2.3s.

有一些其他的数据库或框架更适合处理大数据量，例如 spark, presto, vertica, mapd 等. 但是当测试完 Clickhouse的性能以后, 我们决定选择Clickhouse作为大数据处理平台.

我们加载 NYC taxi 数据到Clickhouse中. Clickhouse 并没有任何的geospatial 工具包, 但是你能够使用基本的欧几里何的数学公式.

:) select count(1) from a2 where (pow(pickup_longitude - -73.985195, 2) + pow(pickup_latitude - 40.75896, 2)) < pow(180*300/(6371*1000*pi()), 2);

SELECT count(1)
FROM trips
WHERE (pow(pickup_longitude - -73.985195, 2) + pow(pickup_latitude - 40.75896, 2)) < pow((180 * 300) / ((6371 * 1000) * pi()), 2)

┌─count(1)─┐
│ 613491 │
└──────────┘
rows in set. Elapsed: 0.308 sec. Processed 45.45 million rows, 818.13 MB (147.63 million rows/s., 2.66 GB/s.)

308ms

我们正在处理45.5M 行 (基本执行全表扫描) ，速度超快. 如果我们使用索引来查询接近时代广场的行 (如PostgreSQL ) ，速度将会更快. 好消息是，Clickhouse 支持索引supports . 坏消息是它不支持 points 或 2D 数据的索引. 有一些方法可以线性化 2D 空间到标量, 因此传统的数据库索引可以工作. Hilbert 曲线和geohash是更为通用的方式.在我们得案例案例中我们决定使用 quadkey.

Quadkey是基本的方式在一个整型中来编码瓦片坐标，对于每个区域，我们使用比特位来编码1/4方格，每个方格有每个位置. 因此，我们能够以64位整数来编码任意的经纬坐标对儿，精度为1.9 cm (瓦片大小为31). 我们能够使用Hilbert 的geohash ，但是quadkey 更适合这种方式来可视化数据(使用quadtree).生成速度快，与通用数据库索引无缝结合.

通过创建一个带有quadkey 列的表，pickup_latitude和pickup_longitude 作为索引，我们能够使用 quadkey来查询，带上特定的where条件:

CREATE table test (
lat Nullable(Float64),
lon Nullable(Float64),
datetime Nullable(DateTime),
value Nullable(Float64),
date_index Date,
quadkey UInt64
)
ENGINE = MergeTree(date_index, quadkey, 8192)

运行此查询, 使用quadkey 索引:

:) select count(1) from a2 where quadkey between 1013670044871163904 and 1013670049166131200 and (pow(pickup_longitude - -73.985195, 2) + pow(pickup_latitude - 40.75896, 2)) < pow(180*300/(6371*1000*pi()), 2)
SELECT count(1)
FROM a2
WHERE ((quadkey >= 1013670044871163904) AND (quadkey <= 1013670049166131200)) AND ((pow(pickup_longitude - -73.985195, 2) + pow(pickup_latitude - 40.75896, 2)) < pow((180 * 300) / ((6371 * 1000) * pi()), 2))
┌─count(1)─┐
│ 613491 │
└──────────┘
1 rows in set. Elapsed: 0.032 sec. Processed 2.41 million rows, 56.07 MB (75.88 million rows/s., 1.77 GB/s.)

处理的数据量相同，但这次Clickhouse 处理了2.41M 行, 获得了10x提升.

Clickhouse实践之地理信息数据处理

猜你喜欢

热点阅读