laravel学习笔记

php代码利用结巴分词+朴素贝叶斯算法实现文章分类

2017-04-20  本文已影响140人  程序员Hani

最近公司的事情太多了,一直没有时间更新公众号。但是还是在忙里抽了点时间用php实现了贝叶斯的文章分类算法。

扒了一些微信公众号的文章之后,发现如果一个一个的进行手动分类太浪费时间了。有一种基于统计概率的算法-----贝叶斯算法可以通过计算在已知某个分类条件下的词语的概率,推算出给定词语组合是某分类的概率。

简单点讲,过去的经验可以用来预测未来,如果过去的经验和需要预测的事情是有关联的。

然后再利用结巴分词对抓取到的文章做分词处理,计算已经分好类的文章的词语概率,然后再输入新的未知分类的文章,就可以计算出该文章在不同分类下的概率,取最大的就是最可能的分类了。

todo :

去掉一些助词:的,地,等等,这些会对训练样本造成干扰

手动去编辑文章的分类,有些分类明显不准,需要重新编辑

测试召回率和准确率。召回率:是否查的全 。 查出来相关的/查出来相关的+未查出来相关的。准确率: 查的是否准确。 查出来相关的/查出来相关的+查出来不相关的

分类标签的补充和重新编辑,爬过来的文章与我做的分类都没法匹配上去,分类不是很全

上一篇 下一篇

猜你喜欢

热点阅读