Geomesa学习3 - 数据操作

2020-01-07 本文已影响0人汤圆毛毛

本章主要介绍GeoMesa的操作流程，包括数据写入、索引创建、数据查询等，GeoMesa前期的安装部署见GeoMesa安装

一、 Geomesa主要常用类

类	描述
SimpleFeatureBuilder	用来创建feature，feature是geomesa完整数据的实体类，一个feature对应一条数据
SimpleFeature	空间要素的抽象表达，默认含有geometry字段，根据定义的SimpleFeatureType依次传入相应类型的数据，最后设置Feature的ID即可。
SimpleFeatureType	要素元数据描述，包括字段名、类型、空间参考等，类似表结构中不同字段的类型等信息。
DataStore	要素数据集，定义了用户操作数据的接口。DataStore是数据的核心访问模型，存储了数据集的名称、数据结构与类型、数据访问源等信息，类似一种数据元信息的存储集合，用于定义和描述数据的基本信息。
FeatureSource	用于数据查询
FeatureStore	FeatureSource子类，增加数据更新功能
SimpleFeatureCollection	数据要素集合，按需加载
Query	数据查询类，封装了各项查询条件

二、数据写入

2.1 数据表示形式

原始数据样式——人数据：

id	name	出生时间	出生地经度	出生地维度
1	Tom	1536041936000	1.6432	-19.123

通过引用GeoJson库，在Web APi中可以用下面的方法将上述数据定义成一个点数据：

point_feature = Feature(id="1",geometry=Point((1.6432, -19.123)), 
properties={"id":"1","dtg":1536041936000,"name": "Tom"})

在GeoTools API中可以通过SimpleFeatureBuilder构造一个人的SimpleFeature：

SimpleFeatureBuilder builder = new SimpleFeatureBuilder(sft);
builder.set("peopleId", "1");
builder.set("geom", "POINT(1.6432, -19.123)");
builder.set("dtg", 1536041936000);
SimpleFeature point_feature = builder.buildFeature("1");

2.2 写入流程（GeoJson）

使用GeoTools进行数据写入的基本流程如下：

1.  构建GeoMesa连接，获取DataStore对象
2.  构建数据的属性描述信息，包括属性字段名、字段类型、是否对属性建索引
3.  根据属性描述信息创建SimpleFeatureType，即创建数据的schema
4.  设置时空索引的时间间隔、空间索引字段、时空索引精度
5.  DataStore根据SimpleFeatureType真正创建数据表的schema
6.  使用SimpleFeatureBuilder对象创建feature，并写入数据

在写入数据时，可以从csv、txt文件中写入，只是在写入之前要先把文件中的数据转换为WKT格式，WKT示例如下图。

WKT.png

2.3 代码示例

/**
 * 向Geomesa-Hbase中导入数据
 * */
public static void importData() throws Exception{
    Map<String, String> params = new HashMap<String, String>();
    params.put("hbase.zookeepers", "10.1.1.1");
    params.put("hbase.catalog", "nicole_test");

    //构建GeoMesa连接--DataStroe
    DataStore dataStore = DataStoreFinder.getDataStore(params);

    //声明简单类型SimpleFeatureType，用于操作GeoMesa中数据属性，如实行索引、属性描述等存放在该对象中
    SimpleFeatureType sft = null;

    //构建属性描述符，接收String类型的属性描述
    //属性字段描述方法-- 字段名：字段类型，字段名：字段类型，*地理信息字段名：地理信息字段类型：空间引用标识符=标识符编码
    //若对某一个属性做索引，则 -- 字段名：字段类型：index=true，
    StringBuilder attributes = new StringBuilder();
    attributes.append("plantNo:String:index=true,");
    attributes.append("color:String,");
    attributes.append("dateAttr:Date,");
    attributes.append("*geom:LineString:srid=4326");
   // srid是GIS当中的一个空间参考标识符。而此处的srid=4326表示这些数据对应的WGS 84空间参考系统
    //使用SimpleFeatureTypes创建SimpleFeatureType，string-data是自己定义的schema的名称
    sft = SimpleFeatureTypes.createType("string-data", attributes.toString());
    //设置xz3索引时间间隔为天
    sft.getUserData().put("geomesa.xz3.interval", "day");
    //设置时空索引时间字段为date
    sft.getUserData().put("geomesa.index.dtg", "dateAttr");
    //设置索引精度
    sft.getUserData().put("geomesa.xz.precision", 10);

    //DataStore通过SimpleFeatureType真正创建表的schema
    SimpleFeatureType sftCheck = dataStore.getSchema("string-data");
    if(sftCheck == null){
        dataStore.createSchema(sft);
    } else{
        System.out.println("schema exists !");
    }

    //声明SimpleFeatureBuilder对象，用于创建feature，一个feature对应一条数据
    SimpleFeatureBuilder builder = new SimpleFeatureBuilder(sft);
    //构造一条数据
    String plantNo = "A00001";
    String geomStr = "LINESTRING(120.777 20.444,120.333 30.188,120.3211 30.1902)";
    Date date = new Date(System.currentTimeMillis());

    builder.set("plantNo", plantNo);
    builder.set("geom", geomStr);
    builder.set("dateAttr", date);

    //设置FeatureID，该字段要求具有唯一性，推荐使用UUID
    String featureId = plantNo + 1;

    SimpleFeature simpleFeature = builder.buildFeature(featureId);


    //数据写入
    //通过DataStore获取featureWriter，设置事务自动提交
    FeatureWriter<SimpleFeatureType, SimpleFeature> writer = dataStore.getFeatureWriterAppend("string-data", Transaction.AUTO_COMMIT);
    //服务端下一次要写入的数据feature,并为其设置我们的数据
    SimpleFeature toWrite = writer.next();
    toWrite.setAttributes(simpleFeature.getAttributes());
    ((FeatureIdImpl) toWrite.getIdentifier()).setID(simpleFeature.getID());
    //设置是否使用呢客户端提供的featureID作为 FID
    toWrite.getUserData().put(Hints.USE_PROVIDED_FID, Boolean.TRUE);
    toWrite.getUserData().putAll(simpleFeature.getUserData());
    //真正的执行写操作
    writer.write();
    writer.close();
}

数据写入之后在hbase中会生成五张表：

nicole_test                                                                                                                                 
nicole_test_string_2ddata_attr_v5                                                                                                           
nicole_test_string_2ddata_id                                                                                                                
nicole_test_string_2ddata_xz2                                                                                                               
nicole_test_string_2ddata_xz3   //因为导入的数据是线，所以这里会生成XZ的表

Geomesa存储到hbase中的数据是编码之后的，无法在hbase中查看到具体的数据样式。通过java API查看每个表中的rowkey：
nicole-test

Rowkey: string-data~attributes
Rowkey: string-data~id
Rowkey: string-data~stats-date
Rowkey: string-data~table.attr.v5
Rowkey: string-data~table.id.v1
Rowkey: string-data~table.xz2.v1
Rowkey: string-data~table.xz3.v1

nicole_test_string_2ddata_attr_v5：
Rowkey: A00001 F] !2I'9465d3a8-8f2d-4949-b0e8-cd20589682fa
nicole_test_string_2ddata_id：
Rowkey: 9465d3a8-8f2d-4949-b0e8-cd20589682fa
nicole_test_string_2ddata_xz2：
Rowkey: �W9465d3a8-8f2d-4949-b0e8-cd20589682fa
nicole_test_string_2ddata_xz3：
Rowkey: F] !2I'9465d3a8-8f2d-4949-b0e8-cd20589682fa

三、索引创建

索引的创建在构建数据的schema时进行，分为属性索引创建、空间索引创建和时间索引创建。

注意
①时间索引必然要跟随空间索引，不能单独只有时间索引。即可以单独创建空间索引或者共同创建空间索引和时间索引。
②对同一属性不能重复建索引。

3.1 创建属性索引

属性索引比较简单，只需要在构建某个属性的schema信息时，在属性信息后面增加index=true的配置信息即可，如为plantNo属性创建属性索引：
attributes.append("plantNo:String:index=true,");

3.2 创建空间索引

在声明空间信息字段时用*来标识该字段是空间信息字段，配置空间引用标识符和标识符编码，会自动为其创建空间索引，如果该属性是Point，则创建Z索引，如果是LineString或者Polygon则创建XZ索引。
attributes.append("*geom:LineString:srid=4326");
该例子中，属性名是geom，类型是线。

3.3 创建时间索引

创建时间索引时，和前两种索引不同，前两种索引是在构建属性时直接指定，但时间索引需要为SimpleFeatureType对象来进行设置。（若schema中只有一个Date类型的属性，GeoMesa会自动为其构建时间索引，但当有多个Date类型属性时，需手动指定为哪一个时间属性创建索引。）

时间索引可以设定时间间隔周期（默认是week），并指定创建时间索引的字段。

//设置z3索引时间间隔为天
sft.getUserData().put("geomesa.z3.interval", "day");
//设置时空索引时间字段为date
sft.getUserData().put("geomesa.index.dtg", "dateAttr");
此外该可以对索引设置精度，该精度会影响存储和检索的效率。
//设置索引精度
sft.getUserData().put("geomesa.xz.precision", 10);

更多对索引的设置如下表。

配置项	操作代码
set schema options	sft.getUserData().put("option.one", "foo");
设置属性索引	sft.getDescriptor("name").getUserData().put("index", "true");
有多个时间属性时设置时间索引	sft2.getUserData().put("geomesa.index.dtg", true);
设置对时间不设置索引	sft2.getUserData().put("geomesa.ignore.dtg", true);
设置Feature ID为uuid	sft.getUserData().put("geomesa.fid.uuid", "true");
设置geomesa索引精度	sft.getDescriptor("geom").getUserData().put("precision", "4");
设置column-groups	sft.getDescriptor("name").getUserData().put("column-groups", "a,b");
设置Z索引的预分片	sft. getUserData().put("geomesa.z.splits", "4");
设置时间索引的间隔	sft.getUserData().put("geomesa.z3.interval", "month");
设置XZ索引的精度	sft.getUserData().put("geomesa.xz.precision", 12);
设置属性索引的Shards	sft.getUserData().put("geomesa.attr.splits", "4");
设置属性索引的Cardinality	sft.getDescriptor("name").getUserData().put("cardinality", "high");
设置索引的分区依据	sft.getUserData().put("geomesa.table.partition", "time");

四、数据查询

4.1 查询语法介绍

1.列举CQL查询语言语法：
比较运算法、BETWEEN、比较运算符、LIKE、两属性比较、算法表达式、IN、过滤函数、几何过滤等

2.空间关系查询谓词：
INTERSECTS、DISJOINT、CONTAINS、WITHIN、TOUCHES、CROSSES、EQUALS、BBOX

3.时空查询谓词：
BEFORE、BEFORE OR DURING、 DURING、 DURING OR AFTER、 AFTER

4.属性查询：
针对某一属性字段创建索引之后，可以对该列进行属性查询

5.用户可以配置Query对象参数指定结果具体返回哪些列：
query.setPropertyNames(returnFields) 其中returnFields是String数组

6. 用户可以配置Query对象的sortBy参数指定返回结果的排序：
query.setSortBy(sort)
其中sort=new SortBy[]{CommonFactoryFinder.getFilterFactory2().sort(sortField, order)}

具体谓词的作用和使用方法在此。

4.2 查询计划

Geomesa查询计划是将GeoTools Query转换为特定后端的扫描和过滤器的过程，它包括以下几个步骤：
（1）重写cql过滤器以进行快速评估并进行优化；
（2）CQL过滤器根据可用索引拆分；
（3）选择一个可用索引来执行查询（索引选取策略）；
（4）逻辑查询计划由核心geomesa索引代码创建（各种索引的查询ranges生成方式）；
（5）为特定后端数据库创建物理查询计划（hbase转为scans查询）。
1、查询条件分解
查询Query可能包含多种过滤条件，在查询计划执行中会将这些条件进行拆分，确定主过滤器（用来确定从hbase拉数据的scans）和用来过滤的cql过滤器。主过滤器的选择最终是由索引选择决定的。
举例：

索引分解.png
对于上述有属性查询、时间和空间查询的请求，可以分解为两种索引使用方式。
(1)：Z3索引+属性Filter索引；
(2)：Z2索引+时间和属性Filter索引。
Geomesa会对不同的索引组合打分，哪种情况分高使用哪种索引进行查询，具体选择策略见下面。

2、索引选择
索引选择基于需要扫描数据库的数据范围最小原则，因此最佳的查询计划通常是扫描最少行的查询计划。Geomesa有两种方法可供选择：基于成本的策略和基于启发式策略。
（1）基于成本的策略
Geomesa在录入数据期间会收集统计数据，并将其存储用于查询计划。收集的统计数据是：

总数
默认几何，默认日期和任何索引属性的最小值/最大值（边界）
默认几何，默认日期和任何索引属性的直方图
任何索引属性的频率，按周拆分
任何索引属性的前k个
Z3直方图基于默认几何和默认日期（如果两者都存在）

根据geomesa官网介绍，当前只支持针对Accumulo数据存储，hbase暂不支持缓存统计信息。

在该例子BBOX(geom,120.227754,30.215471, 120.227898,30.215885) AND date DURING 2018-12-01T00:00:00.000Z/2018-12-01T03:00:00.000Z AND PlateNo = '苏Z1G31G'，按照规则，则会选择车牌的属性索引进行查询过滤。

（2）基于启发式策略
启发式扫描可以仅基于查询过滤器用于查询计划。优先事项如下，括号内为耗时常量，属性索引耗时和条件有关。

查询条件	耗时常量
使用ID索引的功能ID谓词	1L
使用属性索引的高基数属性谓词	500L/25L/10L
属性相等谓词使用属性索引	100L
使用Z3 / XZ3指数的时空谓词	200L
使用属性索引的属性范围谓词	250L
使用Z2 / XZ2索引的空间谓词	400L
使用Z3 / XZ3指数的时态谓词	401L
使用属性索引的低基数属性谓词	50000L/2500L/1000L

此外，使用join属性索引的Accumulo数据存储将根据查询属性/转换对任何需要连接的谓词进行去优先级排序。

如果多个属性谓词与最高优先级相关联，则无法保证从该组中选择哪一个。

启发式策略则是预先设定好和查询优先级相关的耗时常量值，根据查询过滤的CQL来确定不同索引耗时的排序，选择耗时最少的索引作为执行查询的索引。属性索引常量选择和CQL条件相关，非空匹配耗时常量值5000、等于匹配耗时100、范围匹配耗时250，如果在创建属性索引时指定了索引基数HIGH/LOW，耗时对应调整除10 (HIGH), 乘10 (LOW)，不指定则不变。Geomesa此时会根据这些索引耗时排序，选择耗时最少的索引。

查询时索引的选择顺序：

1. Feature ID predicates using the ID index 
2. High-cardinality attribute predicates using the attribute index 
3. Attribute equality predicates using the attribute index 
4. Spatio-temporal predicates using the Z3/XZ3 index 
5. Attribute range predicates using the attribute index 
6. Spatial predicates using the Z2/XZ2 index 
7. Temporal predicates using the Z3/XZ3 index

4.3 查询流程

查询数据使用GeoTools进行查询的基本流程如下：

1.  对想要查询的字段，编写相应的查询条件ECQL语句
2.  获取要查询的要素名称，即写入时SimpleFeatureType的Name，schema的名称
3.  用ECQL创建Filter类型的对象
4.  创建Query对象，将上两步中获取的schema名称和Filter对象作为参数传入
5.  构建GeoMesa连接，创建DataStore
6.  使用dataStore对象获取数据读取器，将Query对象传给数据读取器执行查询，查询结果数据通过读取器对象获取。

4.4 代码示例

/**
 * 对数据进行时空查询
 * */
public static void queryData() throws Exception{
    //先定义查询语句
    String during = "dateAttr DURING 2010-04-25T00:00:00.000Z/2020-04-28T00:00:00.000Z";
    String bbox = "bbox (geom, 115.31412 ,10.89577, 125.31412, 80.89577)";
    String spatioTemp = bbox + " AND " + during;
    
    //声明Query查询对象
    Query query = null;
    query = new Query("string-data", ECQL.toFilter(spatioTemp));

    //构建GeoMesa连接--DataStroe
    Map<String, String> params = new HashMap<String, String>();
    params.put("hbase.zookeepers", "10.3.69.191");
    params.put("hbase.catalog", "wcy_test");
    DataStore dataStore = DataStoreFinder.getDataStore(params);

    //获取读取器reader
    FeatureReader<SimpleFeatureType, SimpleFeature> reader = dataStore.getFeatureReader(query, Transaction.AUTO_COMMIT);
    if(reader.hasNext()){
        SimpleFeature feature = reader.next();
        String locationWKT = feature.getAttribute("geom").toString();
        System.out.println(locationWKT);
    } else{
        System.out.println("No data");
    }
}

4.5 常用查询条件

设置最大返回条目

Query query = new Query(typeName, ECQL.toFilter(queryCQL));
query.setMaxFeatures(Integer.parseInt(maxView));

设置排序

Query query = new Query(typeName, ECQL.toFilter(queryCQL));
FilterFactoryImpl ff = new FilterFactoryImpl();
query.setSortBy(new SortBy[]{new SortByImpl(ff.property("startTime"), SortOrder.ASCENDING)});

统计查询-查总数

Query query = new Query(typeName);
query.getHints().put(QueryHints.STATS_STRING(), "Count()");

聚合查询-GroupBy，查每个分组的总数

Query query = new Query(typeName);
query.getHints().put(QueryHints.STATS_STRING(), "GroupBy(\"carID\",Count())");

统计查询-查最大最小值

Query query = new Query(typeName);
query.getHints().put(QueryHints.STATS_STRING(), "GroupBy(\"carID\",Count())");

Geomesa学习3 - 数据操作

一、 Geomesa主要常用类

二、数据写入

2.1 数据表示形式

2.2 写入流程（GeoJson）

2.3 代码示例

三、索引创建

3.1 创建属性索引

3.2 创建空间索引

3.3 创建时间索引

四、数据查询

4.1 查询语法介绍

4.2 查询计划

4.3 查询流程

4.4 代码示例

4.5 常用查询条件

猜你喜欢

热点阅读

Geomesa学习3 - 数据操作

一、 Geomesa主要常用类

二、 数据写入

2.1 数据表示形式

2.2 写入流程（GeoJson）

2.3 代码示例

三、 索引创建

3.1 创建属性索引

3.2 创建空间索引

3.3 创建时间索引

四、 数据查询

4.1 查询语法介绍

4.2 查询计划

4.3 查询流程

4.4 代码示例

4.5 常用查询条件

猜你喜欢

热点阅读

二、数据写入

三、索引创建

四、数据查询