非结构化数据分析不必如此费力，PetaBase-s助您一步到位

2020-06-19 本文已影响0人亿信华辰

在20世纪后期，信息管理和存储的形式主要集中在较为单一的结构化数据上。那个时候，关系型数据库理论及其管理系统，如：Postgres、oracle、sybase等，它们广受认可。但在过去几年，大数据产业的兴起，促使人们更多关注的是如何处理海量、多源和异构的数据，并从中获得价值。

根据行业报告，结构化数据仅占到全部数据量的10%！其余90%都是以文件形式存在的非结构化和半结构化数据，包括各种办公文档、图片、视频、音频、设计文档、日志文件、机器数据等。而在非结构化数据中，日志数据占了近90%。由于这个原因，越来越多的客户决定将日志分析作为开始采用大数据的最佳的起点。

那究竟如何进行日志数据分析呢？这家MDI制造商的成功经验值得参考。

项目背景

该制造商一直有意向通过用户行为日志实现对企业内网各环节的用户行为进行安全行为审计、业务逻辑告警以及用户行为分析，并为后续的数据挖掘提供基础数据集。以前，在发生行为事件时根本无法及时获悉，需要经历一定的延迟，这个延迟不是按小时或天来计算，而是动辄持续数周才能了解这一情况。每次排查安全事件都需要耗费大量的时间成本。此外，对于问题的发生也不能及时预警，类似的问题很难快速判断。

经过技术选型和评估后，这家客户决定运用Hadoop框架处理日志。从日志中摄取半结构化信息，然后将这些信息汇集成易于使用的数据集，并从交互式分析中总结重要信息。在对比了多家大数据厂商后，他们选择了亿信的PetaBase-s实时大数据平台。

项目内容

PetaBase-s作为具有创新性的实时大数据分析平台，能应对数据庞大的规模和复杂性，对数据的容量、速度和多样性进行管理，帮助企业更加及时、准确地进行数据分析，进行数字化转型。亿信华辰为该客户设计了一套PetaBase-s日志大数据解决方案（如下图所示），整个方案分为六层。

第一层是数据源层，主要是需要采集分析的原始非结构化日志文件，比如安全日志，应用服务器日志等。

第二层是接入层，这一层主要是实时采集增量日志文件，方案采用了flume，将摄取的文本消息下沉至Kafka消息队列中。

第三层是数据存储层，负责整个平台的非结构化/结构化数据存储。其中，非结构化的日志文件存储在hdfs中进行集中归档，结构化数据则存储在kudu中。

第四层是计算层，这一层使用了spark、impala分布式计算框架对kafka消息流进行解析、实时计算、入库。

第五层是数据应用层，对入库的数据经过多维模建模，以面向主题形式提供可分析的全局透视图，以jdbc/sql的方式为应用支撑层提供访问接口。

第六层是应用支撑层，以友好的可视化门户方式向终端用户提供基于业务需求的数据访问和管理。支撑层还提供了http、rest等api接口为第三方应用提供数据访问服务。

方案价值

该方案在投入使用后，实现了三大方面的价值：

（一）日志统一采集和管理

PetaBase-s能够采集各种类型、格式、存储路径的日志文件，将日志实时同步到PetaBase-s平台，避免过期被删，同时通过配置就能够根据正则表达式提取日志字段，实现日志数据格式化，方便数据理解和分析。

（二）文本解析、关键字过滤与分析

日志分析过程中，经常需要根据一些特征词进行快速过滤。PetaBase-s提供包括关键字查询等在内的多种查询运算函数，且能实现多数据源的关联查询，支持用户实现各种复杂计算需求。

（三）同时支持预警与统计

日志数据实时计算加工后既可以生成统计报表为日常管理和观察指标所用，也可以与规则库碰撞，实时预警，规则库支持用户自定义的规则导入。通过这套方案，用户实现了对企业内网各环节的用户行为进行安全行为审计、业务逻辑告警以及用户行为分析，有效提高了安全监督效率。

小结：PetaBase-s日志大数据解决方案完全不需要局限于已有的分析系统，建设风险极低，但却是启用大数据技术的良好起点。同时，成熟的产品化平台功能能大幅缩短实施周期和成本，极具吸引力。除此之外，PetaBase-s可在任意环境中运行，无论是本地环境、公有云和私有云，都能为您提供了更大的自由度和灵活性！

非结构化数据分析不必如此费力，PetaBase-s助您一步到位

项目背景

项目内容

方案价值

猜你喜欢

热点阅读