解密大数据

用python 制作直方图

2017-03-11  本文已影响0人  鬼宇书生

利用jupyter notebook 软件制作

一、导入文件

方法1:

  1. 打开电脑命令符,直接输入jupyter notebook
  2. 电脑在浏览器下直接打开 jupyter notebook界面
  3. 点击upload, 找到需要导入的文件,导入到文件目录
  4. 选择此文件,点击new, 创建notebook

方法2:

  1. 打开电脑命令符,输入cd +空格+ 要导入文件的地址(cd : change directory)
  2. 在此文件下打开jupyter notebook
  3. 可以看到直接打开此文件目录下
  4. 选择此文件,点击new, 创建notebook

二、python 计算

*# 导入numpy库, 命名为np *
import numpy as np
import matplotlib.pyplt as plt
import pandas as pd

#用panda来读取‘weight.txt’文件的数据, 函数read_table
weight_data = pd.read_table(‘weight.txt’)

weight_data.shape()

#有一列数,80个
(80,1)


weight_data['weight']mean()

50.7


weight_data[weight].var()

weight 39.275949


weight_data[weight].median()

weight 50.0


制作直方图

*设置图标尺寸和DPI, 设置600 * 300 像素,每英寸100像素*
fig = plt.figure(figsize = (6,3) ,dpi = 100)*

x = weight_data['weight']

# 将画布分割成1行1列,从左到右从上到下第1块
ax= fig.add_subplot(111)

#bins-直方个数,alpha-颜色的深浅度,rwidth-宽度,normed - 是否对数据标准化
ax.hist(x,bins = 15, color = 'red',alpha = 0.5,rwidth = 0.8,normed=False)

plt.grid(True)
plt.title(u'weight')
plt.show()


weight 直方图,数据波动较大

csv文件

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
passengers_data = pd.read_csv('AirPassengers.csv')
passengers_data.shape

(144,2)


passengers_data['NumPassengers'].mean()

280.2986111111111


passengers_data['NumPassengers'].var()

14391.917200854701


passengers_data['NumPassengers'].median()

265.5


fig = plt.figure(figsize = (6, 3), dpi = 100)
x = passengers_data['NumPassengers']
ax = fig.add_subplot(111)
ax.hist(x , bins = 50, color = 'red', alpha = 0.5, rwidth = 0.8, normed = False)
plt.grid(True)
plt.title('passenger')
plt.show()


passenger,数据波动较大

参考文档:
文档 matplotlib绘图总结;
文档 Python数据可视化分析 matplotlib教程;
文档PANDAS常用手册 I --读写文本数据 ;
文档 matplotlib.pyplot中add_subplot方法参数111的含义 ;
文档 Matplotlib使用教程;
书籍:《极简统计学》

上一篇下一篇

猜你喜欢

热点阅读