5.3、数据分析告诉你，天龙八部到底在讲啥？

2018-05-19 本文已影响288人 PMskill产品社区

又双叒叕到了520

520？谁爱我？

天龙八部

大家好，不知道大家看过，天龙八部没？
“天龙八部”是哪八部？“天龙八部”都是“非人”，包括八种神道怪物，因为以“天”及“龙”为首，所以称为“天龙八部”。
八部者，一天，二龙，三夜叉，四乾达婆，五阿修罗，六迦楼罗，七紧那罗，八摩呼罗迦。

看完介绍，还是不懂，没关系，今天主要讲的是，用数据分析，天龙八部里，高频词语，人物关系，以及为什么你还是单身？

自己？

看到下面的词云，为什么”自己“这个词，那么高频？

天龙八部词频

乍看之下，段誉词频（1551）最高。其实要结合“业务”，实则乔峰才是正主。要从乔峰的身世说起，开头中，乔峰是丐帮帮主，后身世揭破，契丹人也，改名萧峰。
所以乔峰的词频（1900+）=乔峰（963）+萧峰（966）

南慕容，北乔峰

段誉

从词语中，我们可以看出，写作手法，乔峰(段誉)听/笑/呆/动词，所以人物+动词。

人物关系图

故事有好多条主线。
一、寻仇：其中虚竹和乔峰，为什么关系最亲密？因为虚竹的爸是杀死乔峰的爸的带头大哥，寻仇是小说的主线之一。

小说主线一寻仇
二、段正淳恋爱史：从另一角度看，可以说是，大理镇南王，段正淳恋爱史，他和几位女人谈恋爱，并生下的都全都是女儿，女儿再一个个，和段誉谈恋爱，搞得段誉很痛苦，最后发现自己，不是亲生的故事。

段正淳的恋爱史

总结来说

故事是由“慕容博”和“段正淳”，两位大Boss挑起的,各负责一条主线。

那就要看阁下有几斤几两了

慕容博想光复燕国，才策划杀死萧家，企图引起两国战乱，引起萧父报仇；

镇南王，则是负责拈花若草，一身情债，一个人很爽，搞得很多人很痛苦，最后自杀，搞得王夫人、马夫人，各种痛苦，阿朱得替父挡仇，被乔峰错手打死，乔峰痛苦，和段誉谈恋爱有都是自己的妹妹，妹妹、段誉都很痛苦，最后发现自己不是亲生的，释然了。

520又到了，为什么你还单身？

拈花若草大boss

段正淳：拈花若草，大boss，没你就没那么多破事了，魅力指数10000。
虚竹：憨厚老实，杀人有艳福，从和尚到灵鹫宫主到附马，屌丝逆袭的故事，艳福指数1000；
段誉：始终如一，追了王姑娘，几十集电视剧，最后真情打动王语嫣，另一角度看，有点“备胎上位”的感觉，对么？幸福指数，500；
王语嫣：从小爱慕表哥，最后被拒，被段誉打动，幸福指数，400；
乔峰：丐帮帮主，侠之大者，身世悲惨，想和阿朱牧马放羊，却一掌错杀阿朱，为和平而死，幸福指数，100；
阿朱：小婢，从小没有父爱、母爱，一直崇拜乔峰，大英雄，为父挡仇，为“孝”牺“爱”，幸福指数，100；
啊紫：执着，只爱乔峰一人，最后很痛苦就是了，痛苦指数5000；

看了那么多故事，依然谈不好恋爱，你们呢？

实战分割线

一、词云

这里主要用到了两个库，jieba分词用的，wordcloud词云用，matplib显示用。

下载小说txt文件；
准备一张mask（遮罩）图片；
字体；

#coding:utf-8

from os import path
from collections import Counter
import jieba
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud, STOPWORDS

if __name__=='__main__':

    #读取文件
    d = path.dirname(__file__)
    pardir = path.dirname(d)
    pardir2 = path.dirname(pardir)

    cyqf = path.join(pardir2,'tlbbqf/')

    text = open(path.join(d,'tlbb.txt'), encoding="utf-8", errors="surrogateescape").read()
    jieba_word = jieba.cut(text, cut_all=False)   #cut_all 分词模式
    data = []
    for word in jieba_word:
        data.append(word)
    dataDict = Counter(data)

    with open('./词频统计.csv', 'w',  encoding='utf-8') as fw:
        for k,v in dataDict.items():
            fw.write("%s,%d\n" % (k,v))

    mask = np.array(Image.open(path.join(d, "mask.png")))
    font_path=path.join(d,"font.ttf")
    stopwords = set(STOPWORDS)
    wc = WordCloud(background_color="white",
                   max_words=2000, 
                   mask=mask,
                   stopwords=stopwords, 
                   font_path=font_path)
    # 生成词云
    wc.generate(text)
    # 生成的词云图像保存到本地
    wc.to_file(path.join(d, "wordcloud.png"))
    # 显示图像
    plt.imshow(wc, interpolation='bilinear')
    plt.axis("off")
    plt.show()

二、人物关系图

统计词频

  text = open(path.join(d,'tlbb.txt'), encoding="utf-8", errors="surrogateescape").read()
    jieba_word = jieba.cut(text, cut_all=False)   #cut_all 分词模式
    data = []
    for word in jieba_word:
        data.append(word)
    dataDict = Counter(data)