CPDA数据分析师:为什么我们称文本为“非结构化”?
来源:CPDA数据分析师网 / 作者:数据君
文字真的是非结构化的吗?
非结构化的真正含义是什么?通常非结构化是指缺乏结构,如果文本真的是非结构化的,我们将无法进行对话,但是我们在讲话时会互相理解,人们在阅读书籍时就会理解。这里发生了什么?文本背后肯定有结构,有适当的拼写,标点符号,适当的句子结构和适当的思想发展,询问任何英语老师,您就会发现我们写和说的文字背后是多少结构,当然文本背后的结构非常复杂。从一年级开始在学校教授语言,父母从很小的时候就开始教孩子语言,一个人要花很长时间才能学会正确的说话方式,也要学会理解语音,而且您对语言的了解越深,它就变得越神秘和复杂,确实您可以获得博士学位,语言使之成为您一生的工作。
有非结构化的字典含义和有计算机专业人员的含义,这两个定义非常不同
文本背后确实存在结构,但是这不允许在计算机的角度将文本视为结构化的,这种结构是如此巨大,如此复杂,如此神秘以至于计算机无法理解,计算机仅能理解最简单的结构,而语言简直就是苍白无力,因此在计算机看来,文本是非结构化的,更复杂的是,非结构化数据(从计算机的角度来看)包含的内容远远超过文本,非结构化数据包括各种其他数据-图像数据,声音数据,记录磁带数据和气象数据,仅举几例。
CPDA数据分析师为什么计算机对结构化和非结构化的定义会有所不同?
该计算机可以处理结构化数据,而非非结构化数据,计算机希望数据整齐,整齐地堆在一起,称为记录,每个记录都有一个键和其他属性,一旦将数据组织成结构化格式,计算机就会加快速度,就像子弹穿过机枪一样,如果没有子弹则机枪卡住。
在计算机内部进行高效处理时,数据的结构和组织有很大的不同
有趣的问题之一是:如果计算机不能有效地处理非结构化数据,那么非结构化数据可以转换为结构化格式吗?您可以使用文本歧义消除来摄取原始的非结构化文本,并将非结构化文本的重要部分转换为结构化格式,同时保持非结构化数据的本质,这就像骑着自行车穿过横跨尼亚加拉大瀑布的钢丝,而杂耍的猴子飞奔而过,不是为了胆小的人。
文本歧义消除的战略价值在于,它可以将文本放入标准数据库中,从而可用于公司决策
如果您不掌握基于文本做出决策的战略重要性,请考虑一下,估计企业中80%到90%的数据是文本,但是大多数公司决策是在读取和分析公司结构化数据的10%到20%的基础上做出的,这有意义吗?