训练集的调整_doc文档的读取_2018.9.5

2018-09-11 本文已影响0人我闭上眼睛就是天黑

早上来到公司，本想改一下doc文档的读取，结果临时需要fasttext训练模型。

昨天才做好的训练集还没有添加进去，就重新跑了一遍模型。

准确率91

不过感觉没有什么用，数据都是使用简单扩充的方法，改改说法，把几十组数据扩充到1000多组，再扩也没什么意义。如果后面还要用的话，最好可以拿业务那边的现实数据来跑训练。

模型给了之后，说只有安卓的模型。又重新跑了苹果的模型，把数据集换一下就行了，也就是之前数据集标签不一样而已。

今天服务器跑模型跑得是真的慢，跑了一个上午。

下午写了doc的读取模块。

装了python-docx库。但只能读取docx文档，读取doc文档会报错。

#读取docx中的文本代码示例import docx
#获取文档对象
file=docx.Document("addr")
for para in file.paragraphs:
    print(para.text)

读取docx也有乱码，先这样吧。接下来要写把所有doc文章转换成docx的代码了，可真是麻烦。