短文本分类在商品分类下的应用
最近发现从电商网站获取到的商品,有一些是没有分类信息的
想到用商品标题文本解析,用文本分类的方法来初步实现未分类商品的二次分类
先熟悉一下文本分类的一些最基础算法
参考文本分类的14种算法总结,看完这个文章就能有个大致了解。他给出的数据集是西班牙语/法语?还是啥语言的分类,label只有两个。
另外一篇文章讲解的细一些14种分类算法进行文本分类实战,是中文文本分类
=======我是分割线,这些都是渣渣========
step1.我这边先把商品库的商品标题和分类信息拿出来,一部分作为训练集,一部分作为验证集。很快就发现我这分类太多,准确率是0。吐血整理扩大数据集。。。。。
step2.减少分类到10个,(先做这么粗糙),训练集9000条左右,修改了stoplist,准确率最高到0.58
step3.保持10个分类,扩大数据集到12万条,保持stoplist不变,准确率浮动很大,不同算法60%~100%不等
step4.语料增加到40万条,分类扩到40个,暴力分割前面部分为训练集,后面部分为验证集。主要用MultinomialNB(因为很快而且准确率可以)训练,准确率到87%,GaussianNB准确率为99.9%,多分类前馈神经网络准确率92.9%
step5.修改训练集和验证集的9:1抽样分割方式,MultinomialNB准确率为45.6%,但这种分割数据集的方式更为合理可信
step6.加入jieba分词,MultinomialNB准确率为95.6%
step7.改为67个分类,训练效果不忍直视。。。扩充数据集到1500万条,MultinomialNB准确率勉强到95.6%
step8.分类数目不变,修改短文本的内容,增加一些商品属性之类的信息,数据集400万条,MultinomialNB准确率99.5%,训练速度和准确率都不错了
step9.考虑词向量的应用,word2vector,似乎训练时间更长,而且准确率更低了,😓。。。。。不知道是否词向量更适用于神经网络的数据集处理,还是参数问题,还是怎样?
在电商场景下进行商品分类的应用:
由于电商平台的商品类目非常多,所以对于未分类商品,应先分类到大类(一级分类),再在特定的某个一级分类下细化到具体的子类