论文阅读“Topic discovery and future

2021-10-14  本文已影响0人  掉了西红柿皮_Kee

Hurtado J L, Agarwal A, Zhu X. Topic discovery and future trend forecasting for texts[J]. Journal of Big Data, 2016, 3(1): 1-21.

摘要

从文档集中寻找主题,如研究出版物、专利和技术报告,有助于总结大规模的文本收集和万维网。它还可以帮助预测未来的主题趋势。这对许多应用都是有益,例如建模研究方向的演变和预测IT行业的未来趋势。在本文中,我们提出使用关联分析和集成预测从一组文本文档中自动发现主题,并在不久的将来预测其主题的发展趋势。为了发现有意义的主题,我们收集来自特定研究领域的出版物,数据挖掘和机器学习,作为研究的数据领域。将关联分析过程应用于收集到的数据,首先确定一组主题,然后进行时间相关性分析,以帮助发现主题之间的相关性,并确定主题和社区的网络。然后,提出了一种集成预测方法来预测未来研究课题的流行程度。

对于以上这些应用程序,潜在的技术问题本质上是两个 1):如何从一组文档(主题挖掘或发现)中总结和生成有意义的主题;以及 2)如何预测未来主题的趋势(主题预测)。现有的解决方案通常使用文本聚类( text clustering)、关联规则挖掘或潜在语义模型(association rule mining, or latent semantic models for topic discovery)来进行主题发现。

作者贡献:

模型框架-Topic discovery and future trend prediction framework

上述的框架主要分为6个步骤:


作者通过主题发现的方法,将词袋模型的表示+时间 转换为了时序性的主题表示,最终构建了主题之间的图结构。用于发现主题社区并用于之后的预测。

上一篇 下一篇

猜你喜欢

热点阅读