基于Tensorflow使用CRF（条件随机场）解决词性标注问题

2020-06-28 本文已影响0人雍珑庚

前几天看到了概率图模型这一块，讲到了贝叶斯网络和马尔可夫网络等；其中后者主要讲到了马尔可夫随机场和条件随机场，于是今天就动手敲了一遍书中给的代码，讲真，代码有点乱，对于小白来说看着可能会生无可恋，咱们出发吧～～

关于词性标注稍微说明一下，比如给你一个句子：You are beautiful。标准的“主系表”结构，大家都知道系动词不能单独作谓语，其后必须跟表语，其实这就是一种规则，可以称之为一个特征函数，当然这其中还有很多规则，比如动词后边不能跟动词，这也是一个特征函数，我们就可以定义一个特征函数的集合，用来评判一个标注的序列是否正确，这一块的基础知识大家可以自行查阅一下，我们就不一一介绍了，咱们今天主要还是用代码实现它~~

进入正题吧：

设置参数

num_exam=10
num_words=20
num_feat=100
num_tags=5

咱们设置了10个样本，每个样本20个单词（不是20的后边统一为20），100个特征函数和5组标注序列，当然这个值可以随意设置，只要合理就ok

构建随机特征和随机标注

#构建随机特征
x=np.random.rand(num_exam,num_words,num_feat).astype(np.float32)
#构建随机tag
y=np.random.randint(num_tags,size=[num_exam,num_words]).astype(np.int32)

然后获取样本句长，因为每个句子的长度不一，我们统一为20，即num_words，进行填充：

length_se=np.full(num_exam,num_words,dtype=np.int32)

然后获取样本句长，因为每个句子的长度不一，我们统一为20，即num_words，进行填充：

length_se=np.full(num_exam,num_words,dtype=np.int32)

构建模型

将x、y和length_se转换为常量：

x_t=tf.constant(x)
y_t=tf.constant(y)
length_se_t=tf.constant(length_se)

增加一个无偏置线性层：

weights=tf.get_variable("weights",[num_feat,num_tags])
x_t_matr=tf.reshape(x_t,[-1,num_feat])
unary_scores_matr=tf.matmul(x_t_matr,weights)
unary_scores=tf.reshape(unary_scores_matr,[num_exam,num_words,num_tags])

创建一个新的变量weights，并指定其形状为特征函数量×标注序列量；reshape函数中的-1表示新的形状不确定有多少行，列数为特征函数量，也就是行自适应；这四行代码其实就是最基本的矩阵点乘和转换的应用，我们可以带入具体的数值，这样更便于理解，空间想象一下～～～

然后就可以计算序列的的log-likelihood并获得转移概率：

log_likelihood,tran_params=tf.contrib.crf.crf_log_likelihood(unary_scores,y_t,length_se)

上述tf.contrib.crf.crf_log_likelihood函数用于在一个条件随机场中计算标签序列的log-likelihood，其格式为:

crf_log_likelihood(inputs,tag_indices,sequence_lengths,transition_params=None)

解码

viterbi_sequence,viterbi_score=tf.contrib.crf.crf_decode(unary_scores,tran_params,length_se_t)
loss=tf.reduce_mean(-log_likelihood)
train_op=tf.train.GradientDescentOptimizer(0.01).minimize(loss)
session.run(tf.global_variables_initializer())
mask=(np.expand_dims(np.arange(num_words),axis=0)<np.expand_dims(length_se,axis=1))

第一行出现的函数用于在tensorflow内部解码，后边的代码就是标准的损失函数系列操作，使用随机梯度下降来求最优，学习率为0.01，当然这个值也可以更改，大家可以尝试一下不同的学习率

训练模型

#获取总标签数
total_labels=np.sum(length_se)
#开始训练
for i in range(500):
    tf_viterbi_sequence,_=session.run([viterbi_sequence,train_op])
    if i%100==0:
         correct_lables=np.sum((y==tf_viterbi_sequence)*mask)
         accuracy=100.0*correct_lables/float(total_labels)
         print("Accuracy-NO.%d:%.2f%%" % (i,accuracy))

我们最后输出一下精确度，训练5000次，每100次输出一下，看下结果:

完整代码你可以在这里看到

基于Tensorflow使用CRF（条件随机场）解决词性标注问题

设置参数

构建随机特征和随机标注

构建模型

解码

训练模型

猜你喜欢

热点阅读