利用Python绘制桑基图

2020-04-01 本文已影响0人羋学僧

桑基图(Sankey diagram)，即桑基能量分流图，也叫桑基能量平衡图。它是一种特定类型的流程图，图中延伸的分支的宽度对应数据流量的大小，通常应用于能源、材料成分、金融等数据的可视化分析。因1898年Matthew Henry Phineas Riall Sankey绘制的"蒸汽机的能源效率图"而闻名，此后便以其名字命名为"桑基图"。

汇总提炼：

桑基两个字取自“发明”者的名字

属于流程图的一种，核心在于展示数据的流转

主要由节点、边和流量三要素构成，边越宽代表流量越大

遵循守恒定律，无论怎么流动，开端和末端数据总是一致的

Python手把手绘制桑基图

动手之前，我们再次敲黑板，回顾桑基图组成要素的重点——节点、边和流量。

任何桑基图，无论展现形式如何夸张，色彩如何艳丽，动效如何炫酷，本质都逃不出上述3点。

只要我们定义好上述3个要素，Python的pyecharts库能够轻松实现桑基图的绘制。

import pandas as pd
import os
import numpy as np
import matplotlib.pyplot as plt
from pyecharts.charts import Sankey
from pyecharts import options as opts
%matplotlib inline

这里我们用“当代青年熬夜原因分析”数据为例：

df = pd.DataFrame({
    '性别':['男','男','男','女','女','女'],
    '熬夜原因':['打游戏','加班','看剧','打游戏','加班','看剧'],
    '人数':[57,13,30,33,5,62]
})
df

首先是节点，这一步需要把所有涉及到的节点去重规整在一起。也就是要把性别一列的“男”、“女”和熬夜原因一列的“打游戏”、“加班”、“看剧”以列表内嵌套字典的形式去重汇总：

nodes = []

for i in range(2):
    values = df.iloc[:,i].unique()
    for value in values:
        dic = {}
        dic['name'] = value
        nodes.append(dic)
        
nodes

[{'name': '男'}, {'name': '女'}, {'name': '打游戏'}, {'name': '加班'}, {'name': '看剧'}]

接着，定义边和流量，数据从哪里流向哪里，流量（值）是多少，循环+字典依然可以轻松搞定：

linkes = []

for i in df.values:
    dic = {}
    dic['source'] = i[0]
    dic['target'] = i[1]
    dic['value'] = i[2]
    linkes.append(dic)

linkes

[{'source': '男', 'target': '打游戏', 'value': 57},
 {'source': '男', 'target': '加班', 'value': 13},
 {'source': '男', 'target': '看剧', 'value': 30},
 {'source': '女', 'target': '打游戏', 'value': 33},
 {'source': '女', 'target': '加班', 'value': 5},
 {'source': '女', 'target': '看剧', 'value': 62}]

source-target-value的字典格式，很清晰的描述了数据的流转情况。

这两块数据准备完毕，桑基图已经完成了80%，剩下的20%，只是固定格式的绘图代码：

from pyecharts.charts import Sankey
from pyecharts import options as opts

pic = (
    Sankey()
    .add('', #图例名称
         nodes,    #传入节点数据
         linkes,   #传入边和流量数据
         #设置透明度、弯曲度、颜色
         linestyle_opt=opts.LineStyleOpts(opacity = 0.3, curve = 0.5, color = "source"),
         #标签显示位置
         label_opts=opts.LabelOpts(position="right"),
         #节点之前的距离
         node_gap = 30,
    )
    .set_global_opts(title_opts=opts.TitleOpts(title = '熬夜原因桑基图'))
)

pic.render('test.html')

一个回车下去，看看成果：

果然，男打游戏女看剧，加班熬夜是儿戏。

如果想要垂直显示，只需要在add函数里面加一个orient="vertical"就好：

pic = (
    Sankey()
    .add('',
         nodes,
         linkes,
         linestyle_opt=opts.LineStyleOpts(opacity = 0.3, curve = 0.5, color = "source"),
         label_opts=opts.LabelOpts(position="top"),
         node_gap = 30,
         orient="vertical",      #更改的是这里
    )
    .set_global_opts(title_opts=opts.TitleOpts(title = '熬夜原因细分桑基图'))
)

pic.render('test2.html')

OK！不过，还有同学意犹未尽，这个是涉及到两层的流转，

那如果三层，需要怎么画呢？

不慌，先导入（狗粮）数据：

df = pd.read_excel('sankey.xlsx')
df.head(10)

这是某宠物品牌，3月份主要产品购买路径（第一次和第二次）的数据，先是品类，其次是第一次购买的产品类型，接着是第二次购买的产品类型，最后一列对应人数。

注：这里第一次购买的产品前面加了“1-”，第二次购买加了“2-”的区分标识。

画图必备的nodes节点实现很简单，所有节点（品类、第一次购买、第二次购买）做去重汇总，对上面生成nodes代码稍作调整就可以：

nodes = []

for i in range(3):
    values = df.iloc[:,i].unique()
    for value in values:
        dic = {}
        dic['name'] = value
        nodes.append(dic)
nodes

[{'name': '狗粮'},
 {'name': '玩具'},
 {'name': '1-小规格狗粮'},
 {'name': '1-大规格狗粮'},
 {'name': '1-磨牙棒'},
 {'name': '2-未购买'},
 {'name': '2-磨牙棒'},
 {'name': '2-小规格狗粮'},
 {'name': '2-大规格狗粮'}]

而linkes只接受source-traget-value的格式，得先对源数据进行格式调整，分别形成“品类-第一次购买-人数”，“第一次购买-第二次购买-人数”的样式，再统一汇总：

first = df.groupby(['品类','第一次购买'])['人数'].sum().reset_index()
second = df.iloc[:,1:]
first.columns = ['source','target','value']
second.columns = ['source','target','value']
result = pd.concat([first,second])
result.head(10)

规整汇总好之后，只需要复用上面的linkes代码：

linkes = []

for i in result.values:
    dic = {}
    dic['source'] = i[0]
    dic['target'] = i[1]
    dic['value'] = i[2]
    linkes.append(dic)

linkes

[{'source': '狗粮', 'target': '1-大规格狗粮', 'value': 613},
 {'source': '狗粮', 'target': '1-小规格狗粮', 'value': 1018},
 {'source': '玩具', 'target': '1-磨牙棒', 'value': 197},
 {'source': '1-小规格狗粮', 'target': '2-未购买', 'value': 654},
 {'source': '1-小规格狗粮', 'target': '2-磨牙棒', 'value': 21},
 {'source': '1-小规格狗粮', 'target': '2-小规格狗粮', 'value': 231},
 {'source': '1-小规格狗粮', 'target': '2-大规格狗粮', 'value': 112},
 {'source': '1-大规格狗粮', 'target': '2-未购买', 'value': 375},
 {'source': '1-大规格狗粮', 'target': '2-磨牙棒', 'value': 23},
 {'source': '1-大规格狗粮', 'target': '2-小规格狗粮', 'value': 18},
 {'source': '1-大规格狗粮', 'target': '2-大规格狗粮', 'value': 197},
 {'source': '1-磨牙棒', 'target': '2-未购买', 'value': 157},
 {'source': '1-磨牙棒', 'target': '2-磨牙棒', 'value': 3},
 {'source': '1-磨牙棒', 'target': '2-小规格狗粮', 'value': 24},
 {'source': '1-磨牙棒', 'target': '2-大规格狗粮', 'value': 13}]

画图代码几乎没变，只是改了个标题：

pic = (
    Sankey()
    .add('',
         nodes,
         linkes,
         linestyle_opt=opts.LineStyleOpts(opacity = 0.3, curve = 0.5, color = 'source'),
         label_opts=opts.LabelOpts(position = 'top'),
         node_gap = 30,
    )
    .set_global_opts(title_opts=opts.TitleOpts(title = '客户购买路径流转图'))
)
pic.render('test3.html')

大功告成，So easy！无论是多少层数据的流转，只要定义好nodes和linkes，就能以不变应万变。

最后，通过上面的桑基图，我们能够非常直观的洞察到客户购买流转规律：

出于试错成本的考量，大部分客户第一次购买的是小规格狗粮。

第一次购买小规格狗粮的客户，流失（第二次未购买）情况严重，且再次购买客户，更倾向于继续选择小规格狗粮尝试，而不是信任性的购买大规格狗粮。

第一次购买大规格狗粮的客户，留存下来的客户已经建立起对品牌的信任感，再次购买大部分选择了大规格狗粮。

购买狗粮的客户第二次复购鲜有尝试玩具的，而第一次购买玩具的客户，也并未建立起对品牌狗粮的兴趣。

利用Python绘制桑基图

Python手把手绘制桑基图

这里我们用“当代青年熬夜原因分析”数据为例：

那如果三层，需要怎么画呢？

学习来源

猜你喜欢

热点阅读