php代码利用结巴分词+朴素贝叶斯算法实现文章分类
2017-04-20 本文已影响140人
程序员Hani
最近公司的事情太多了,一直没有时间更新公众号。但是还是在忙里抽了点时间用php实现了贝叶斯的文章分类算法。
扒了一些微信公众号的文章之后,发现如果一个一个的进行手动分类太浪费时间了。有一种基于统计概率的算法-----贝叶斯算法可以通过计算在已知某个分类条件下的词语的概率,推算出给定词语组合是某分类的概率。
简单点讲,过去的经验可以用来预测未来,如果过去的经验和需要预测的事情是有关联的。
然后再利用结巴分词对抓取到的文章做分词处理,计算已经分好类的文章的词语概率,然后再输入新的未知分类的文章,就可以计算出该文章在不同分类下的概率,取最大的就是最可能的分类了。
todo :
去掉一些助词:的,地,等等,这些会对训练样本造成干扰
手动去编辑文章的分类,有些分类明显不准,需要重新编辑
测试召回率和准确率。召回率:是否查的全 。 查出来相关的/查出来相关的+未查出来相关的。准确率: 查的是否准确。 查出来相关的/查出来相关的+查出来不相关的
分类标签的补充和重新编辑,爬过来的文章与我做的分类都没法匹配上去,分类不是很全