[源码和文档分享]基于新闻的高级中文搜索引擎
2019-04-11 本文已影响0人
ggdd5151
随着大数据时代来临,互联网信息量海量倍增, 浏览网络新闻也已经成为大家了解社会动态的一个重要渠道。搜索引擎为用户提供了一个找海量新闻信息的快速入口,然而,随着信息搜索技术的不断发展,用户对信息搜索的要求也在不断提高。通用搜索技术已经满足不了人们更加个性化的查询请求。因此,提供更高级的搜索功能将有助于为用户提供感兴趣的新闻服务,增强用户的体验性,增加用户的粘性。
本文旨在设计并实现一个基于新闻的高级中文搜索引擎。我们通过从网易新闻、腾讯新闻、新浪新闻、凤凰新闻、今日头条、搜狐新闻6个网站获得8个分类的新闻,分类包括军事、体育、科技、娱乐、社会、国际、国内、数码。然后使用最大概率分词对新闻进行分词,用VOLSUNGA进行词性标注,并为新闻建立倒排索引,最后使用TF-IDF对检索结果进行排序,为用户提供个性化的新闻搜索服务。
关键词:新闻;高级中文搜索引擎;最大概率分词;倒排索引;TF-IDF;VOLSUNGA
参考文档和完整的文档和源码下载地址: