Python建模与NLPMachine Learning & Recommendation & NLP & DL自然语言处理(NLP)

文本聚类

2019-03-13  本文已影响22人  sudop

最近朋友面试有被问到文本聚类问题,总结如下:

聚类分析,又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性(百度百科)。

文本聚类就是把文本转成数值表示的空间向量后,通过聚类算法把文本相似度高的聚在一起。

以淘宝短评论聚类为例,文本聚类通常会遇到以下几大问题:
文本聚类主要流程:

本文仅作为个人学习总结,非喜勿喷。

参考文章:
https://zhuanlan.zhihu.com/p/40991165

上一篇 下一篇

猜你喜欢

热点阅读