爬虫专题有些文章不一定是为了上首页投稿首页投稿

pyecharts之参透神剧人物关系

2018-06-01  本文已影响98人  羽恒

《人民的名义》相信是大家都不是陌生吧,去年可是火遍大江南北,号称史上最大尺度反贪反腐神剧,时隔许久还是看到许多关于该剧的文案;恰好最近在学习NLP相关知识,决定对其进行人物关系进行分析。而对人物关系最直观的表现应该是社交网络图谱或者关系图。
接下来,让我们一起来研究怎样制作人物关系图呢?

1.pyecharts 介绍

pyecharts 相关基础可参考

pyecharts 官方文档可参考

2.数据准备

因为我们是希望跟贴近于剧情,所以选取剧本以切合大部分人熟悉的剧情。获取数据方式主要有网络数据采集、网络API方式获取、自定义网络爬虫工具等等,我们可以选择适合自己的方式来获取数据,数据文件和代码会在后期更新。

2.1 文本预处理

当我们拿到数据后,首先了解自己的数据包含什么信息。由于我们获取到的数据为文本文件,首先要对文本进行预处理;主要包括分词、去掉一些特殊字符和停用词等。就像我们可能会有外号啊、小名啊等等,所以剧中人物也会有不同名字,所以我们需要进行统一。为保证在分词时能够正确切分一些固定名称,所以需要导入自定义词典来帮助我们进行分词操作。在提取文本特征时需要去掉一些停用词,以提高分析的准确度。经过以上处理基本可以得到较为干净的文本文件。接下来可以在此基础上进行深入分析。

文本预处理可参考

3.人物出现频次

首先我们可以通过人物在剧中出场次数来初步了解主角是谁?根据参演人员列表,统计该演员在剧中出现的次数,通过pyecharts画出出场次数top10的演员和出场次数,得知侯亮平戏份做多,供480余次;果然是大Boss。其次是我们的老戏骨和行走的表情包达康书记。废话不多说,有图有真相。

from pyecharts import Bar,Line,Overlap
import  pandas as pd

df = pd.read_csv("人物出场次数统计.csv")
attr = df.ID[:11]
y_axis = df.Weight[:11]
bar = Bar("人物出场次数")
bar.add("", attr, y_axis,
  is_stack=False,
  bar_category_gap='20%')
line = Line()
line.add("",attr,y_axis)
overlap = Overlap()
overlap.add(bar)
overlap.add(line)
overlap.render("line_bar.html")
人物出场次数

4.社交网络关系

开始今天的重头戏哦,首先我们根据参演人员列表生成节点文件;采用句为单位进行分析,标识人物关系。得到参演人员的社交网络关系,通过求得的共现矩阵,借助Gephi画出社交网络关系图。图中边的粗细代表关系的密切程度或在剧中的交集。边越粗则表示两人关系越密切。而名字的大小即节点大小表示该参演人员在剧中的社交强弱或存在感。

4.1 pyecharts 实现

from pyecharts import Graph
import pandas as pd


df_node = pd.read_csv("参演人员节点.csv")

df_links = pd.read_excel('参演人员边大小.csv')
nodes = [{"name":name1.strip(),"symbolSize":size/10} for name1,size in zip(df_node.ID,df_node.Weight) if size>1 ]
# nodes = []
links = [{"source":name2.strip(),"target":name1.strip(),"value":weight}
         for name1,name2,weight in zip(df_links.name1,df_links.name2,df_links.frequency)]
graph = Graph("人民的名义关系图",width=1200,height=1000)
graph.add("", nodes, links,graph_layout="circular", repulsion=800, label_pos = "right",
graph_repulsion = 50, is_legend_show = False,
line_curve = 0.2, label_text_color = None)
graph.render()
人民的名义关系图

4.2 Gephi工具实现

4.2.1 效果展示

人民的名义人物关系图
人民的名义人物关系图

详细代码和样例html文件后期整理及时更新,也可以私信哦

上一篇下一篇

猜你喜欢

热点阅读