NLP学习 2

2020-07-22 本文已影响0人 Cxgoal

Task2 数据读取与数据分析[¶]

本章主要内容为数据读取和数据分析，具体使用Pandas库完成数据读取操作，并对赛题数据进行分析构成。

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns
plt.rcParams['font.sans-serif'] = ['SimHei']

这里设置plt的字体显示

train_df = pd.read_csv('../Data/train_set.csv', sep='\t')

csv数据的读取，可以看一下数据的基本信息和情况

数据举例.png

数据信息.png

在读取完成数据集后，我们还可以对数据集进行数据分析的操作。虽然对于非结构数据并不需要做很多的数据分析，但通过数据分析还是可以找出一些规律的。

此步骤我们读取了所有的训练集数据，在此我们通过数据分析希望得出以下结论：

在赛题数据中每行句子的字符使用空格进行隔开，所以可以直接统计单词的个数来得到每个句子的长度。统计并如下：

文本长度统计信息.png

文本长度分布信息（竖轴显示取log）

文本长度分布信息 .png

接下来可以对数据集的类别进行分布统计，具体统计每类新闻的样本个数

样本分布.png

接下来可以统计每个字符出现的次数，首先可以将训练集中所有的句子进行拼接进而划分为字符，并统计每个字符的个数。

词频.png

高频词语，低频词语