离散型变量的可视化
2019-02-18 本文已影响56人
apricoter
一、饼图
需要导入matplotlib模块中子模块pyplot中的pie函数
# 导入第三方模块
import matplotlib.pyplot as plt
# 构造数据
edu = [0.2515,0.3724,0.3336,0.0368,0.0057]
labels = ['中专','大专','本科','硕士','其他']
explode = [0,0.1,0,0,0] # 生成数据,用于突出显示大专学历人群
colors=['#9999ff','#ff9999','#7777aa','#2442aa','#dd5555'] # 自定义颜色
# 中文和数字中的负号通过rcParams处理
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False
# 将横、纵坐标轴标准化处理,确保饼图是一个正圆,否则为椭圆
plt.axes(aspect='equal')
# 绘制饼图
plt.pie(x = edu, # 绘图数据
explode=explode, # 突出显示大专人群
labels=labels, # 添加教育水平标签
colors=colors, # 设置饼图的自定义填充色
autopct='%.1f%%', # 设置百分比的格式,这里保留一位小数
pctdistance=0.8, # 设置百分比标签与圆心的距离
labeldistance = 1.1, # 设置教育水平标签与圆心的距离
startangle = 180, # 设置饼图的初始角度
radius = 1.2, # 设置饼图的半径
counterclock = False, # 是否逆时针,这里设置为顺时针方向
wedgeprops = {'linewidth': 1.5, 'edgecolor':'green'},# 设置饼图内外边界的属性值
textprops = {'fontsize':10, 'color':'black'}, # 设置文本标签的属性值
)
# 添加图标题
plt.title('失信用户的受教育水平分布')
# 显示图形
plt.show()
二、条形图
饼图不擅长对比差异不大的离散型变量时选用条形图
分为垂直条形图、水平条形图、堆叠条形图、水平交错条形图
离散型变量在各水平上的差异就是比较柱形的高低,越高值越大
需要导入matplotlib模块中子模块pyplot中的bar函数
1.垂直条形图
# 条形图的绘制--垂直条形图
# 读入数据
import pandas as pd
GDP = pd.read_excel('F:\Province GDP 2017.xlsx')
GDP
# 设置绘图风格(不妨使用R语言中的ggplot2风格),否则背景为白底
plt.style.use('ggplot')
# 绘制条形图
plt.bar(left = range(GDP.shape[0]), # 指定条形图x轴的刻度值
height = GDP.GDP, # 指定条形图y轴的数值
tick_label = GDP.Province, # 指定条形图x轴的刻度标签
color = 'steelblue', # 指定条形图的填充色
)
# 添加y轴的标签
plt.ylabel('GDP(万亿)')
# 添加条形图的标题
plt.title('2017年度6个省份GDP分布')
# 为每个条形图添加数值标签
#前两个参数用于定位字符在图形中的位置,第三个参数表示呈现的具体字符值,第四个参数表示字符的水平对齐方式为居中对齐
for x,y in enumerate(GDP.GDP):
plt.text(x,y+0.1,'%s' %round(y,1),ha='center')
# 显示图形
plt.show()
2.水平条形图
上述条形图按升序处理
# 条形图的绘制--水平条形图
# 对读入的数据作升序排序
GDP.sort_values(by = 'GDP', inplace = True)
# 绘制条形图
plt.barh(bottom = range(GDP.shape[0]), # 指定条形图y轴的刻度值
width = GDP.GDP, # 指定条形图x轴的数值
tick_label = GDP.Province, # 指定条形图y轴的刻度标签
color = 'steelblue', # 指定条形图的填充色
)
# 添加x轴的标签
plt.xlabel('GDP(万亿)')
# 添加条形图的标题
plt.title('2017年度6个省份GDP分布')
# 为每个条形图添加数值标签
for y,x in enumerate(GDP.GDP):
plt.text(x+0.1,y,'%s' %round(x,1),va='center')
# 显示图形
plt.show()
水平条形图的y轴刻度值是从下往上,升序即从小到大
3.堆叠条形图
不管是垂直条形图还是水平条形图,只反映单个离散变量的统计图形,当需要传递两个离散变量时,用堆叠条形图,横坐标代表一个维度的离散变量,堆叠起来的”块“代表另一个维度的离散变量,可以方便比较累积和。
# 条形图的绘制--堆叠条形图
# 读入数据
Industry_GDP = pd.read_excel('F:\Industry_GDP.xlsx')
Industry_GDP
# 取出四个不同的季度标签,用作堆叠条形图x轴的刻度标签
Quarters = Industry_GDP.Quarter.unique()
# 取出第一产业的四季度值
Industry1 = Industry_GDP.GPD[Industry_GDP.Industry_Type == '第一产业']
# 重新设置行索引
Industry1.index = range(len(Quarters))
# 取出第二产业的四季度值
Industry2 = Industry_GDP.GPD[Industry_GDP.Industry_Type == '第二产业']
# 重新设置行索引
Industry2.index = range(len(Quarters))
# 取出第三产业的四季度值
Industry3 = Industry_GDP.GPD[Industry_GDP.Industry_Type == '第三产业']
# 绘制堆叠条形图
# 各季度下第一产业的条形图
plt.bar(left = range(len(Quarters)), height=Industry1, color = 'steelblue', label = '第一产业', tick_label = Quarters)
# 各季度下第二产业的条形图
plt.bar(left = range(len(Quarters)), height=Industry2, bottom = Industry1, color = 'green', label = '第二产业')
# 各季度下第三产业的条形图
plt.bar(left = range(len(Quarters)), height=Industry3, bottom = Industry1 + Industry2, color = 'red', label = '第三产业')
# 添加y轴标签
plt.ylabel('生成总值(亿)')
# 添加图形标题
plt.title('2017年各季度三产业总值')
# 显示各产业的图例
plt.legend()
# 显示图形
plt.show()
分别针对三种产业的产值绘制3次条形图,第二产业的条形图是在第一产业的基础上做了叠加,第三产业的条形图又是叠加在第一和第二产业之上
取出三个产业的值后,要重新设置行索引,是因为各季度下每一种产业值前的行索引都不相同,会导致无法进行Industry1+Industry2的和计算
4.水平交错条形图
可以将堆叠条形图的”块“水平排开,可以轻易区分”块“之间的差异
import numpy as np
# 取出四个不同的季度标签,用作x轴的刻度标签
Quarters = Industry_GDP.Quarter.unique()
# 取出第一产业的四季度值
Industry1 = Industry_GDP.GPD[Industry_GDP.Industry_Type == '第一产业']
# 取出第二产业的四季度值
Industry2 = Industry_GDP.GPD[Industry_GDP.Industry_Type == '第二产业']
# 取出第三产业的四季度值
Industry3 = Industry_GDP.GPD[Industry_GDP.Industry_Type == '第三产业']
# 绘制水平交错条形图
bar_width = 0.4
plt.bar(left = np.arange(len(Quarters)), height = Industry1, label = 'Industry1', color = 'steelblue', width = bar_width)
plt.bar(left = np.arange(len(Quarters))+bar_width, height = Industry2, label = 'Industry2', color = 'indianred', width = bar_width)
plt.bar(left = np.arange(len(Quarters))+bar_width+bar_width, height = Industry3, label = 'Industry3', color = 'green', width = bar_width)
# 添加刻度标签(向右偏移0.225)
plt.xticks(np.arange(5)+0.4, Quarters)
# 添加y轴标签
plt.ylabel('生成总值(亿)')
# 添加图形标题
plt.title('2017年各季度三产业总值')
# 显示各产业的图例
plt.legend()
# 显示图形
plt.show()
如上水平交错条形图,实质是使用两次bar函数,第二次bar函数使得条形图往右偏移0.4个单位,第三次bar函数使得条形图再往右偏移0.4个单位。
每一个bar函数,必须控制条形图的宽度,width=bar_width,否则会导致条形图的重叠。
使用xticks函数使刻度标签的位置向右移0.4个单位