《利用Python进行数据分析》 9.2 使用pandas和se
9.2.2 柱状图
1.plot.bar()和plot.barh()分别用来绘制垂直和水平的柱状图
2.Series或DataFrame的索引被用作x轴刻度线(bar)或y轴刻度线(barh)(参考图9-15)
图9-15:水平柱状图和垂直柱状图
3.选项color='k'将柱子颜色设置为黑色;alpha将图像的填充设置为部分透明
图9-16 Dataframe柱状图
4.在DataFrame柱状图中(参考图9-16),
(1)每一行中的值分组到并排的柱子中的一组
(2)列名称“Genus”被用作图例标题
5.传递stacked=True来生成堆积柱状图,使得每一行的值堆积在一起
图9-17 DataFrame堆积柱状图6.使用value_counts:
data.value_counts().plot.bar()可以有效的对Series的值频率进行可视化(参考图9-15以及图9-18)
图9-18 使用value_counts7.示例:绘制一个堆积柱状图,用于展示每个派对在每天的数据点占比(参考图9-20(1)、9-20(2))
使用read_csv导入文件tips.csv(见图9-19)
图9-19 tips_csv部分文件图9-20(1) 代码示例
图9-20(2) 示例每天分规模的派对数量百分比
8.对于在绘图前需要聚合或汇总的数据,使用seaborn会使工作更简单
使用seaborn进行按星期日计算小费百分比(参考图9-21)
图9-21 用错误栏按天数显示小费的百分比seaborn中的绘图函数使用一个data参数,这个参数可以是pandas的DataFrame。其他的参数则与列名有关。
day列中有多个观测值,柱子的值是tip_pct的平均值。
柱子上画出的黑线代表的是95%的置信区间(置信区间可以通过可选参数进行设置)。 注:置信区间:指由样本统计量所构造的总体参数的估计区间
9.seaborn.barplot拥有一个hue选项,允许我们通过一个额外的分类值将数据分离(如图9-22)
图9-22 hue用法注:seaborn自动改变了图表的美观性:默认的调色板、图背景和网格线条颜色
9.2.3 直方图和密度图
1.直方图:一种条形图,用于给出值频率的离散显示。 数据点被分成离散的,均匀间隔的箱,并且绘制每个箱中数据点的数量。
使用Series的plot.hist方法制作小费占总费用百分比的直方图(如图9-23)
图9-23 小费百分比的直方图2.密度图(KDE图):一种与直方图相关的图表类型,它通过计算可能产生观测数据的连续概率分布估计而产生。 通常的做法是将这种分布近似为“内核”的混合,也就是像正态分布那样简单的分布。
plot.kde使用传统法定混合法估计绘制密度图(见图9-24):
图9-24 小费百分比密度图3. distplot方法可以绘制直方图和连续密度估计,通过distplot方法seaborn使直方图和密度图的绘制更为简单。
示例:考虑由两个不同的标准正态分布组成的双峰分布
图9-25 正态混合的标准化直方图与密度估计9.2.4 散点图或点图
图9-26 载入文件部分1.点图或散点图可以用于检验两个一维数据序列之间的关系 示例:载入文件,选择对数计算对数差(见图9-27)
图9-28 代码计算对数差
注:(1)np.diff(a,n=1,axis=-1) Calculate the n-th discrete difference along the given axis (2)DataFrame.dropna(axis=0,how='any',thresh=None,subset=None,inplace=False) Remove missing values.(3)np.log() log() 返回 x 的自然对数
使用seaborn的regplot方法,该方法可以绘制散点图,并拟合出一个条线性回归线(见图9-29)
图9-29 seaborn回归散点图2.对图、散点图矩阵 查看一组变量中的所有散点图
利用seaborn的pairplot函数,它支持在对角线上放置每个变量的直方图或密度估计值(见图9-30)
图9-30 statsmodels macro数据的成对图矩阵注:plot_ksw参数:使我们能够将配置选项传递给非对角元素上的各个绘图调用
9.2.5 分面网格和分类数据
1.分面网格是利用多种分组变量对数据进行可视化的方式
seaborn拥有一个有效的内建函数factorplot,它可以简化多种分面绘图(见图9-31):
图9-31 按星期日期/时间/是否吸烟划分的小费百分比除了根据’time’在一个面内将不同的柱分组为不同的颜色,我们还可以通过每个时间值添加一行来扩展分面网格(见图9-32):
sns.factorplot(x='day', y='tip_pct', row='time', .....: col='smoker', .....: kind='bar', data=tips[tips.tip_pct < 1])
图9-32 根据时间、是否吸烟分面后的按星期划分的小费百分比factorplot支持其他可能有用的图类型,具体取决于你要显示的内容。例如,箱形图(显示中位值、四分位数和异常值)可以是有效的可视化类型(图9-33):
图9-33 根据星期日期绘制的小费百分比箱形图