tensorflow自然语言处理-词袋模型文本分类

2017-06-06  本文已影响0人  夜尽天明时

写在前面

词袋模型文本分类

数据准备 texts target

如图:

句子长度分布

从图上可以看出,长度取60时已经涵盖了大部分的句子
因此声明

  sentence_size = 60
  min_word_freq = 3
数据转化

其中_ferq这个就是词频的统计dict

_freq

其中_mapping是一个对每个词编辑一个索引

_mapping

还有一个

_reverse_mapping

就是上一个的reverse,只不过用了list表示
其他的就不解释了

texts_train target_train 结果

从上边的例子看出, ids = [[1,2], [0,1]]决定要取矩阵的哪一行数据

例子看完我想你就明白了吧

如果看不明白,就用一个例子来看
labels = [1,2,3]
x = tf.expand_dims(labels, 0)
[[1 2 3]] #结果增加了一个维度
x = tf.expand_dims(labels, 1)
[[1]
[2]
[3]]
看了上边的例子就能够有个理解了

上一篇 下一篇

猜你喜欢

热点阅读