认识结构化/非结构化/半结构化数据
经常做数据分析,整天接触数据,应该都知道数据有这几种类型:结构化的数据、非结构化的数据以及半结构化的数据。
结构化数据是符合具有行和列的表的相当正式规范的数据。比如一个电子表格,您可能在其中具有订单号,客户,产品单位和每单位价格的列。每行代表一个销售交易。结构化数据源是商业智能工具最容易使用和分析的资源。这些资源通常是关系数据库,其中包括诸如Microsoft SQL Server, Microsoft Access,Azure Table存储,Azure SQL数据库,Oracle,MySQL,IBM DB2,Teradata,PostgreSQL,Informix和Sybase等技术。
非结构化的数据与结构化数据相反。无法将非结构化数据组织成具有行和列的简单表。这样的数据包括诸如视频,音频,图像和文本之类的东西。文字处理文档,电子邮件,社交媒体帖子和网页也是大部分非结构化数据的示例。非结构化数据源是商务智能工具使用和分析的最困难的源类型。这种类型的数据既可以存储为二进制大对象(BLOBS),也可以存储为文件系统中的文件,例如新技术文件系统(NTFS)或Hadoop分布式文件系统(HDFS)。
非结构化数据还包括所谓的NoSQL数据库,其中包括数据存储,例如文档数据库,图形数据库和键值存储。这些数据库专门用于存储非结构化数据。文档数据库包括Microsoft Azure Cosmos DB,MongoDB,10Gen,Cloudant(IBM),Couchbase和MarkLogic。图形数据库包括Neo4j和HyperGraphDB。键值存储包括Microsoft的Cosmos DB,Basho Technologies的Riak,Redis,Aerospike,Amazon Web Services的DynamoDB,Basho Technologies,Couchbase,Datastax的Cassandra,MapR Technologies和Oracle。最后,宽列商店包括Cassandra和HBase。
半结构化数据具有结构,但不符合结构化数据的正式定义,即具有行和列的表。半结构化的示例包括制表符和定界文本文件,XML,其他标记语言(例如HTML和XSL),JavaScript Object Notation(JSON)和电子数据交换(EDI )。半结构化数据源具有自定义结构,这使其比非结构化数据源更易于使用和分析,但比真正的结构化数据源需要更多的工作
半结构化数据还包括数据访问协议,例如开放数据协议(OData)和其他表示状态传输(REST)API。这些协议提供了到数据源的接口,例如Microsoft SharePoint, Microsoft Exchange,Microsoft Active Directory和Microsoft Dynamics。社交媒体系统,例如Twitter和Facebook;以及其他在线系统,例如MailChimp,Salesforce,Smartsheet,Twilio,Google Analytics 和GitHub等。这些数据协议可以抽象化数据的存储方式,无论是关系数据库,NoSQL数据库还是仅仅是一堆文件。
绝大多数商务智能工具(例如Power BI)已针对处理结构化和半结构化数据进行了优化。结构化数据源与商业智能工具的设计本机集成。此外,商业智能工具旨在吸收半结构化数据源并将其转换为结构化数据。非结构化数据更加困难,但使用商业智能工具进行分析并非不可能。实际上,Power BI具有许多旨在简化非结构化数据源的提取和分析的功能。但是,分析此类非结构化数据有其局限性。
摘选自《Learn PowerBI》
采悟 @ PowerBI星球