用Py做文本分析1：文本分析概述

2020-02-03 本文已影响0人凡有言说

数据的范围远远不止数字，文本、图像、声音等都是数据。然而非数字类数据难以利用起来，但其本身包含着丰富的信息。难处理的原因在于很难做量化，即纳入数学分析框架难度大。

文本挖掘即想办法对文本数据加以利用。从大量文本数据中抽取隐含的，未知的，可能有用的信息被称为自然语言处理（NLP）。其可以被分为三个模块：

语料获取

网络爬虫
文本文件读入
图片OCR识别
...

语料数据化

分词
信息处理
文档-词条矩阵
相关字典编制
信息转换
...

语料挖掘

词云
关键词提取
自动摘要
文档聚类
情感分析
文章推荐
...

文本信息的层次：

词条是否在文本中出现（基于词袋模型）
词条间的内在联系（各种字典）
词条的顺序（N-gram模型）
语法信息（待探索区域）

传统的思路是基于字典，但存在结果主观，依赖于编制者经验等不足。现代的思路是基于统计模型，通过特征提取对语料进行各种可能的重编码和组合，尽肯能的将信息量化，然后使用模型对潜在信息进行提取建模。

在进行原始语料量化时要尽可能的保留有效信息。具体地，在分词时要将原始文本拆分为有分析意义的最小信息单位。注意去除停用词，即剔除无意义的词，减少无效信息。如去除空白、标点符号等。其他的如词根识别、同义词/近义词识别，术语识别等。

参考资料：
Python数据分析--玩转文本挖掘

上一篇下一篇

猜你喜欢

热点阅读