大数据舆情分析

3分钟带您玩转知识和数据双轮驱动的网络舆情分析技术

2018-06-04  本文已影响25人  云洋鱼君

网络舆情研究是较为复杂的一项系统工程,相比传统媒体舆情,网络舆情的表现途径、用户规模和结构特性等更为复杂,同时大数据时代的到来为网络舆情研究提供机 遇的同时也带来了很大挑战。大数据时代网络舆情分析要在传统舆情分析理论的基础上不断扩展和深化,既要从大数据的角度在宏观和微观层面上洞察网民群体性动向,也要从知识工程和知识管理的角度对舆情大数据进行知识挖掘,以更科学有效的方式提供舆情决策支持。“南海问题”舆情案例对模型在实际的舆情工作中的适用场景和实际效用进行了验证,结果显示该模型能够较好的结合知识和大数据技术对特定主题舆情进行深度分析和挖掘。

南海问题背景

南海争议的核心是南沙岛礁领土主权争议和南海部分海域的划界争议。按照国际法的规定,国家对海洋的权利基于大陆,即海权基于陆权。整个南中国海海域的面积为350万平方公里,其中南海九条断续线之内,中国主张拥有主权、管辖权的海域面积为200多万平方公里。

南海周边国家侵占南海诸岛的现象主要发生在南沙群岛,对中国南沙群岛全部或部分岛礁提出主权要求的国家主要有:越南、菲律宾、马来西亚、印度尼西亚和文莱。其中,越南侵占岛屿和礁石30个;菲律宾侵占6个;马来西亚侵占3个,巡视监控4个;文莱占领1个;印度尼西亚虽未占领岛礁,但对邻近海域有主权要求;而中国本身仅实际控制8个(包括台湾驻军的太平岛和中洲岛),巡视监控21个。

南海问题舆情分析

“南海问题”相关舆情涉及了国家主权、海洋权益、 国际公约和国际政治局势等众多敏感话题,我国政府和学 术界对 “南海问题”舆论工作十分关注。构建基于知识和 数据双轮驱动的“南海问题”舆情分析系统有利于整合现 有 “南海问题”舆情知识库,及时跟进相关事件发展,为 舆论引导工作提供决策支持。

“南海问题”舆情分析系统构建

依据知识和数据双轮驱动的网络舆情分析模型构建 “南海问题”舆情分析系统是模型技术实现的具体化过程, 包括了 “南海问题”舆情知识库、舆情数据采集、舆情研 判、舆情知识服务 4 个模块的技术实现过程

1.构建 “南海问题”舆情知识库

知识库使用本体技术实现,通过对相关文献整理筛选 初步形成事件类、国家类、关注类、岛礁类 4 类舆情本体 库,以事件类为核心,将事件发起或介入的国家、关注的 媒体或机构、涉及的岛礁分别纳入国家类、关注类和岛礁 类本体库中,媒体所在国家则纳入国家类本体库中。

2.“南海问题”舆情数据采集

舆情数据主要通过网络爬虫和相关媒体 API 接口进行 多种渠道、分布式并行采集,一般需要预先设置采集条件, 比如关键词和目标网站等。由于多种渠道得到的数据分散、 格式相异,还需要对采集的数据进行整理,对不规范的数 据进行规范和整理,不完整的和不一致的数据进行清理, 完成数据的统一模式转换。另外,借助 “南海问题”舆情 知识库,系统可以根据用户提供的关键词,查找更准确表 达用户需求的检索词集合,并根据该检索词集合实现对相 关内容的全面准确爬取。

3.“南海问题”舆情研判

舆情研判是一个复杂的过程,根据不同的任务需要采 取不同分析策略。以热点事件追踪为例,按照时间轴推进 的方式,查找该事件在网络中的报道、评论,从而获取该 事件的发展脉络。比如通过文本处理技术,对采集的网页 正文、微博评论等进行分词、特征词提取、主题发现和分 类、时序关联,获取事件发展情况,通过情感分析判断广大网友对后续发展的态度。

4.“南海问题”舆情知识服务

“南海问题”涉及领域范围广,知识结构复杂,随着 国际形势变化,突发事件频发,需要及时的积极应对。通 过舆情知识服务,突发事件一旦发生,一方面要第一时间 形成相关历史事件发展脉络图,掌握相关法律依据,占据 法理高地; 另一方面要及时跟进事态发展,形成相关舆情 报告,引导相关舆论,形成有利的舆情态势。

5.典型事件“南海仲裁案”的舆情分析

以 “南海仲裁案”相关信息,包括事件过程、涉及国 家、涉及岛屿和各方观点为需求,对舆情数据进行采集、 处理和分析。针对 “南海仲裁案”事件,相关国家中国、 菲律宾、美国纳入国家类库,涉及岛礁黄岩岛、美济礁、 仁爱礁和渚碧礁等纳入岛礁类库,对此事件报道的新华网、 新浪网、微博、微信等纳入关注类

舆情数据主要来源于新华网、新浪网、今日头条等新 闻网站,新浪微博、微信等社交媒体,围绕关键词 “南海 问题+南海争端+南海仲裁”,以 2016 年 7 月 12 日 “南海 仲裁案”结果发布后1 周为限,即7 月12 日零时至7 月18 日 24 时,通过网络爬虫、新浪微博 API、搜狗微信搜索对 相关平台数据进行采集,借助新浪微舆情社会化大数据应 用平台对相关数据进行补充。以天为单位对采集的文本数 据进行分时处理,分词后利用 LDA 模型对文本数据进行建 模,获取主题词分布,通过时序分析,获取舆情发展走势。 另外,对文本数据中涉及实体和关系进行抽取,提取相关 的事实知识补充南海本体知识库。

对比不同平台提取的信息可以发现, “南海仲裁案” 事件信息比较集中,各平台间转载量和引用量比较大,用 户评论意见比较一致,形成比较清晰的发展脉络。各媒体 和广大网友等关注方意见比较一致,均认为 “中国对南海 拥有正当领土权益”、“南海仲裁案是披着法律外衣的政治 闹剧”。

同时,通过对知识库中已有案例对比报道提取的主题 词或关键词用于发现 “南海仲裁案”事件的发展脉络和后 续走势(下图),包括 “2013 年 1 月 22 日,菲律宾单方面将就南海问题提交国际仲裁”开始,到结果发布,再到 后续的 “多国领导人支持中国南海问题立场”等相关报道。同时南海问题知识库国家类库也扩展了新加坡、越南、 老挝等国家,岛礁类基本涵盖了与菲律宾有争议的岛礁。

以上就是“南海问题”舆情对模型在实际的舆情工作中的适用场景和实际效用所进行的验证,欢迎下方留言讨论。

喜欢我,就pick我......

更多精彩内容可微信搜索”知于大数据分析平台“

上一篇下一篇

猜你喜欢

热点阅读