文本分析

用Py做文本分析1:文本分析概述

2020-02-03  本文已影响0人  凡有言说

数据的范围远远不止数字,文本、图像、声音等都是数据。然而非数字类数据难以利用起来,但其本身包含着丰富的信息。难处理的原因在于很难做量化,即纳入数学分析框架难度大。

文本挖掘即想办法对文本数据加以利用。从大量文本数据中抽取隐含的,未知的,可能有用的信息被称为自然语言处理(NLP)。其可以被分为三个模块:

  1. 语料获取
  1. 语料数据化
  1. 语料挖掘

文本信息的层次:

传统的思路是基于字典,但存在结果主观,依赖于编制者经验等不足。现代的思路是基于统计模型,通过特征提取对语料进行各种可能的重编码和组合,尽肯能的将信息量化,然后使用模型对潜在信息进行提取建模。

在进行原始语料量化时要尽可能的保留有效信息。具体地,在分词时要将原始文本拆分为有分析意义的最小信息单位。注意去除停用词,即剔除无意义的词,减少无效信息。如去除空白、标点符号等。其他的如词根识别、同义词/近义词识别,术语识别等。

参考资料:
Python数据分析--玩转文本挖掘

上一篇 下一篇

猜你喜欢

热点阅读