文本分类——1 初探
2019-03-12 本文已影响0人
shijiatongxue
文本分类有很大的价值,如判断是否为垃圾邮件、判断用户的实时情绪、判断本文的主题是什么?这都是文本分类,与这三个例子相对应,文本分类分为二分类、多分类和多标签分类。
1.1 文本分类类型
- 二分类:如垃圾邮件检测。
- 多分类:如用户的情绪是属于非常消极,消极,中立,积极,非常积极中的哪一类?
- 多标签:给微博的话题自动打上标签。
1.2 文本分类的步骤
- 特征表示:词袋模型、TF-IDF等
- 特征筛选:删除停用词、信息增益、互信息等
- 模型选择:KNN、DT、神经网络,大规模用LR、NB、SVM等。
1.3 评价模型效果
类型 | 评价方法 |
---|---|
二分类 | Accuracy、Precision、Recall和 |
多分类 | Macro F1和Micro F1 |
多标签 | Jaccard相似系数 |
1.4 方法
用于文本分类的方法有传统机器学习方法和现在流行的深度学习方法。
传统方法:
- 朴素贝叶斯
- TF-IDF + LR
- 随机森林
- 其他分类器(SVM,KNN等)
缺点:
数据稀疏和维数爆炸问题。解决办法是降维和特征筛选,如去掉停用词低频词等。
深度学习:
- 词向量 + CNN
- 词向量 + BiRNN
- CNN + RNN
新技术:Capsule网络和Attention机制。
参考资料 :
深度学习文本分类在支付宝投诉文本模型上的应用
brightmart
中文文本分类对比(经典方法和CNN)
基于神经网络的词和文档语义向量表示方法研究
Google