地震会商技术系统地震数据专家[DataEQ]

DatistEQ之解析CSF地震观测报告

2021-02-19  本文已影响0人  了无_数据科学

CSF地震观测报告是常见数据格式之一,地震台网中心发布观测报告的标准格式。如图所示,文件由标题、数据体两大部分构成。

标题部分,定义了字段名称,由HBO、HEO、HMB、HPB四行组成,相应行的内容记录了数据的字段名称,字段名之间以空格分隔。

数据体部分,定义了数据具体内容,以固定宽度记录观测值。其中DBO与HBO、DEO与HEO、DMB与HMB、DPB与HPB相对应,DBO、DEO、DMB有一行数据,DPB可以有多行数据,行数不定。

CSF地震观测报告

从数据表达的内容来看,CSF混合了单行与多行数据,数据提取工作比较麻烦,同时文件方式存储,也不利于数据查询与应用。如何使用DatistEQ来解析CSF文件呢?

1、解析CSF节点

DatistEQ节点,提供CSF文件读取功能,将按行叠加的观测数据,以列方式存储。它把DBO、DEO、DMB数据和DPB组合成记录,构成一张二维数据表。

image.png

2、数据结构化

解析CSF节点完成了数据格式的按行转换功能,我们可使用列劈分节点将行的内容结构化出来。采用列劈分节点的固定列宽分隔数据读取方式,标记出数据项读取的位置,将以行存储的数据,转换成以列方式存储。

列劈分 数据劈分结果

3、修改字段名称

列过滤节点,提供了数据模型映射工具,可快速建立成数据字段之间的对应关系。当然也可以一个个地去修改字段名称,只是工作量有点大。

数据模型化

数据解析流程示例

数据解析流程

流程中,由扫描目录获取文件,解析CSF节点转换数据存储方式,劈分节点结构化数据,最终由列过滤节点重定义字段名称及数据类型。

另外,解析CSF节点支持两种数据源,一是BLOB文件体数据,二是文件的路径。两种方式给我们以无限发挥空间,可以用它来解析本地磁盘上的文件,也可以用于解析获取网络上的数据体。

上一篇下一篇

猜你喜欢

热点阅读