文本分类——1 初探

2019-03-12  本文已影响0人  shijiatongxue

文本分类有很大的价值,如判断是否为垃圾邮件、判断用户的实时情绪、判断本文的主题是什么?这都是文本分类,与这三个例子相对应,文本分类分为二分类、多分类和多标签分类。

1.1 文本分类类型

1.2 文本分类的步骤

1.3 评价模型效果

类型 评价方法
二分类 Accuracy、Precision、Recall和F_1
多分类 Macro F1和Micro F1
多标签 Jaccard相似系数

1.4 方法

用于文本分类的方法有传统机器学习方法和现在流行的深度学习方法。

传统方法:

缺点:
数据稀疏和维数爆炸问题。解决办法是降维和特征筛选,如去掉停用词低频词等。

深度学习:

新技术:Capsule网络和Attention机制。


参考资料 :
深度学习文本分类在支付宝投诉文本模型上的应用
brightmart
中文文本分类对比(经典方法和CNN)
基于神经网络的词和文档语义向量表示方法研究
Google

上一篇 下一篇

猜你喜欢

热点阅读