在TensorFlow中基于lstm构建分词系统笔记(二)
上一节我们介绍了我们的模型部分,这一节来介绍下我们的数据来源和数据预处理。对初学者可能常常面临的问题的是模型的输入到底是怎样的,例如,在rnn可以处理任意长度的句子,所以很多初学者可能会认为是不是在TensorFlow中输入不需要特殊处理。理论上rnn是可以处理任意长度的句子,但在工程实现上考虑到效率等一些列问题,TensorFlow中的rnn(包括它的变形,lstm,gru...)需要把不同长度的句子pading到同一个长度,一种是把所有句子都处理成同一个长度,另一种是我们只需要在同一个batch中的句子同一个长度。本节采用第一种。
数据
一 数据来源
这里我们自己构造了一份训练数据,我随意找了一份京东评论数据,你也可以采用其他的文本数据。然后利用jieba分词对这些文本进行分词。例如,有这样一句话,s1 = “迪士尼发行了四部票房超过10亿美元的电影”,我们对s1分词后成为s1_seg = ['迪士尼', '发行', '了', '电影'],其中,“迪士尼”就是一个词,我们把它处理成['B','I','I'],‘B’代表词的开始,‘I’代表词的中间。这样s1就可以标记为s1_tag=['B','I','I','B','I','B','B','I'],这样我们就可以得到我们的训练数据。注意,jieba本身就可能分错,我们这里只是想看下我们的模型能不能学习到训练数据的分布。
二 数据预处理
刚才我们已经得到我们的训练数据,现在我们要把它处理成符合输入要求的数据格式。为了简单,我这里把所以数据都处理成同样长度的序列(上一章中我们构建的模型就是要求的所有的序列长度一样)。由于在训练的时,我们需要在数据上不断的迭代更新参数。这里需要把数据处理成不同的batch,然后在每个batch上迭代。这里我们构造了一个类,这个类有一个next_batch方法。通过这个方法可以不断的产生batch_size的训练数据。
class DataSet(object):
def __init__(self,x_data,y_data,):
#这个类主要用于不断产生训练数据
self._x_data = np.array(x_data)
self._y_data = np.array(y_data)
self._epochs_completed = 0
self._index_in_epoch = 0
self._num_examples = len(x_data)
@property
def x_data(self):
return self._x_data
@property
def y_data(self):
return self._y_data
@property
def num_examples(self):
return self._num_examples
@property
def epochs_completed(self):
return self._epochs_completed
def next_batch(self, batch_size, shuffle=True):
"""返回下一个`batch_size`数据"""
start = self._index_in_epoch
# 第一个epoch时做乱序处理
if self._epochs_completed == 0 and start == 0 and shuffle:
perm0 = np.arange(self._num_examples)
np.random.shuffle(perm0)
self._x_data = self.x_data[perm0]
self._y_data = self.y_data[perm0]
# 进入到下一个epoch
if start + batch_size > self._num_examples:
# Finished epoch
self._epochs_completed += 1
# Get the rest examples in this epoch
rest_num_examples = self._num_examples - start
x_rest_part = self._x_data[start:self._num_examples]
y_rest_part = self._y_data[start:self._num_examples]
# 数据乱序处理
if shuffle:
perm = np.arange(self._num_examples)
np.random.shuffle(perm)
self._x_data = self._x_data[perm]
self._y_data = self._y_data[perm]
# 开始下一个epoch
start = 0
self._index_in_epoch = batch_size - rest_num_examples
end = self._index_in_epoch
x_new_part = self._x_data[start:end]
y_new_part = self._y_data[start:end]
return np.concatenate((x_rest_part, x_new_part), axis=0), np.concatenate(
(y_rest_part, y_new_part), axis=0)
else:
self._index_in_epoch += batch_size
end = self._index_in_epoch
return self._x_data[start:end], self._y_data[start:end]
def word_to_id(dict_data):
#遍历所以的中文句子里的字符,建立一个Vocabulary,通过字符的频次把每个字符映射到一个数字
counter = collections.Counter(''.join(dict_data.keys()))
count_pairs = sorted(counter.items(), key=lambda x: (-x[1], x[0]))
words, _ = list(zip(*count_pairs))
word_id = dict(zip(words, range(3, len(words) + 3)))
word_id['B'] = 1
word_id['I'] = 2
return word_id
def datas(dict_data,num_step):
#读取数据
x_data = []
y_data = []
word_id = word_to_id(dict_data)
for line in dict_data:
x_list = [word_id[word] for word in list(line)][:num_step]
y_list = [word_id[word] for word in dict_data[line]][:num_step]
x_len = len(x_list)
y_len = len(y_list)
assert x_len == y_len
if x_len<num_step:
x_list.extend([0]*(num_step-x_len))
y_list.extend([0]*(num_step-y_len))
x_data.append(x_list)
y_data.append(y_list)
return x_data,y_data
def read_data_sets(fileName,num_step):
#通过调用这个函数不断的产生next batch的训练数据
with open(fileName) as f:
dict_data = json.load(f)
x_data, y_data = datas(dict_data, num_step)
return DataSet(x_data, y_data)
通过调用read_data_sets来产生训练数据,注意这里的参数dict_data参数指的是,key是字符串,例如前面的s1,value是该字符串的标记,例如s1的标记是s1_tag。
下一节我们将介绍训练过程。