基于BiLSTM-CNN-CRF的中文分词(二)
上文传送门:https://www.jianshu.com/p/5fea8f42caa9
Github:https://github.com/FanhuaandLuomu/BiLstm_CNN_CRF_CWS
(喜欢还请star、文章点赞支持)
在线演示:http://118.25.42.251:7777/fenci?type=mine&text=南京市长莅临指导,大家热烈欢迎。公交车中将禁止吃东西!
二、算法实现
2.1 语料资源
图1 语料资源图
图2 样本实例
上图为语料的存放。其中biaozhu_1_100为100篇标注好的法律文档,conll2012_new为conll2012的分词训练语料。语料中的文件按图2保存,词与词之间空格隔开。
2.2 预处理
读取corpus中的语料,通过process_data函数生成train.data,其格式如下:
图3 预处理函数1
图4 train.data格式
接着读取train.data(此处也可以不生成train.data中间文件,直接在内存计算),生成训练数据的原始格式。
图5 训练数据原始格式
create_documents函数中将训练语料中的句子按标点切分,避免了某些行过长、难以整个序列优化的问题。
图6 生成词典
生成词典时,0位保留,用作补长位。
图7 转化为数字化矩阵
将训练数据的原始格式转化为字典中的下标表示。
图8 句子补长
将所有样本按maxlen补长。
图9 label one-hot化
2.3 模型搭建、训练
搭建BiLSTM-CNN-CRF模型。
图10 模型搭建
模型训练fit。
图11 模型训练
保存模型训练权重,待测试时导入。
图12 保存权重
此时,模型训练完成,开始测试。
图13 导入模型权重
2.4 模型测试
对于测试文本,按标签切分为句子,按句子进行分词,最后再拼接还原。
图14 按句分词
根据原始text和预测label,生成最终分词后的规范结果。
图15 测试句子还原
图16 测试文本
分词结果:
图17 分词结果
从上述结果看,分词模型还算成功。
以下为百度分词(http://ai.baidu.com/tech/nlp/lexical)的结果(中将错误):
图18 Baidu AI 分词
三、分词接口
效果图如下:
http://127.0.0.1:7777/fenci?type=mine&text=南京市长莅临指导,大家热烈欢迎。公交车中将禁止吃东西!
图19 分词接口效果1
http://127.0.0.1:7777/fenci?type=jieba&text=南京市长莅临指导,大家热烈欢迎。公交车中将禁止吃东西!
图20 分词接口效果2
该部分代码见如下函数:
图21 分词接口实现
四、分词微信工具
微信接口很简单,使用ichat开源包,效果如下:
图22 微信分词效果
samme分词是我老师公司的初级分词算法,暂不公布技术细节(可加微信测试==)。
图22 微信分词效果2
具体代码实现见wechat_search.py。
测试微信二维码
五、END
水平有限,写的较烂,勿喷!