自己的世界自己码《利用Python进行数据分析》 第二版

《利用Python进行数据分析》 9.2 使用pandas和se

2018-12-03  本文已影响138人  CCC考研

9.2.2 柱状图


1.plot.bar()和plot.barh()分别用来绘制垂直和水平的柱状图


2.Series或DataFrame的索引被用作x轴刻度线(bar)或y轴刻度线(barh)(参考图9-15)


图9-15:水平柱状图和垂直柱状图

3.选项color='k'将柱子颜色设置为黑色;alpha将图像的填充设置为部分透明


图9-16 Dataframe柱状图

4.在DataFrame柱状图中(参考图9-16),

               (1)每一行中的值分组到并排的柱子中的一组

               (2)列名称“Genus”被用作图例标题


5.传递stacked=True来生成堆积柱状图,使得每一行的值堆积在一起

图9-17 DataFrame堆积柱状图

6.使用value_counts:

data.value_counts().plot.bar()可以有效的对Series的值频率进行可视化(参考图9-15以及图9-18)

图9-18 使用value_counts

7.示例:绘制一个堆积柱状图,用于展示每个派对在每天的数据点占比(参考图9-20(1)、9-20(2))

     使用read_csv导入文件tips.csv(见图9-19)

图9-19 tips_csv部分文件
图9-20(1) 代码示例
图9-20(2) 示例每天分规模的派对数量百分比

8.对于在绘图前需要聚合或汇总的数据,使用seaborn会使工作更简单

    使用seaborn进行按星期日计算小费百分比(参考图9-21)

图9-21 用错误栏按天数显示小费的百分比

       seaborn中的绘图函数使用一个data参数,这个参数可以是pandas的DataFrame。其他的参数则与列名有关。

       day列中有多个观测值,柱子的值是tip_pct的平均值。

        柱子上画出的黑线代表的是95%的置信区间(置信区间可以通过可选参数进行设置)。     注:置信区间:指由样本统计量所构造的总体参数的估计区间


9.seaborn.barplot拥有一个hue选项,允许我们通过一个额外的分类值将数据分离(如图9-22)

图9-22 hue用法

注:seaborn自动改变了图表的美观性:默认的调色板、图背景和网格线条颜色


9.2.3 直方图和密度图


1.直方图:一种条形图,用于给出值频率的离散显示。                                                   数据点被分成离散的,均匀间隔的箱,并且绘制每个箱中数据点的数量。

使用Series的plot.hist方法制作小费占总费用百分比的直方图(如图9-23)

图9-23 小费百分比的直方图

2.密度图(KDE图):一种与直方图相关的图表类型,它通过计算可能产生观测数据的连续概率分布估计而产生。                                                                                                  通常的做法是将这种分布近似为“内核”的混合,也就是像正态分布那样简单的分布。

plot.kde使用传统法定混合法估计绘制密度图(见图9-24):

图9-24 小费百分比密度图

3. distplot方法可以绘制直方图和连续密度估计,通过distplot方法seaborn使直方图和密度图的绘制更为简单。

示例:考虑由两个不同的标准正态分布组成的双峰分布

图9-25 正态混合的标准化直方图与密度估计

9.2.4 散点图或点图


1.点图或散点图可以用于检验两个一维数据序列之间的关系                                                示例:载入文件,选择对数计算对数差(见图9-27)                                                                                                                                   

图9-26 载入文件部分
图9-28 代码计算对数差

注:(1)np.diff(a,n=1axis=-1)                                                                                               Calculate the n-th discrete difference along the given axis                                        (2)DataFrame.dropna(axis=0,how='any',thresh=None,subset=None,inplace=False)                 Remove missing values.(3)np.log()                                                                                                                            log() 返回 x 的自然对数

使用seaborn的regplot方法,该方法可以绘制散点图,并拟合出一个条线性回归线(见图9-29)

图9-29 seaborn回归散点图

2.对图、散点图矩阵   查看一组变量中的所有散点图

利用seaborn的pairplot函数,它支持在对角线上放置每个变量的直方图或密度估计值(见图9-30)

图9-30 statsmodels macro数据的成对图矩阵

注:plot_ksw参数:使我们能够将配置选项传递给非对角元素上的各个绘图调用


9.2.5 分面网格和分类数据 


1.分面网格是利用多种分组变量对数据进行可视化的方式

seaborn拥有一个有效的内建函数factorplot,它可以简化多种分面绘图(见图9-31):

图9-31 按星期日期/时间/是否吸烟划分的小费百分比

除了根据’time’在一个面内将不同的柱分组为不同的颜色,我们还可以通过每个时间值添加一行来扩展分面网格(见图9-32):

sns.factorplot(x='day', y='tip_pct', row='time',                                                                               .....:                  col='smoker',                                                                                                            .....:                  kind='bar', data=tips[tips.tip_pct < 1])

图9-32 根据时间、是否吸烟分面后的按星期划分的小费百分比

factorplot支持其他可能有用的图类型,具体取决于你要显示的内容。例如,箱形图(显示中位值、四分位数和异常值)可以是有效的可视化类型(图9-33):

图9-33 根据星期日期绘制的小费百分比箱形图
上一篇下一篇

猜你喜欢

热点阅读