机器学习我爱编程

04python数据分析处理库_pandas

2018-03-07 本文已影响15人从0到1的小姐姐

Anaconda直接安装好了pandas,封装了很多函数，在Numpy的基础之上
shift+enter运行
object就是个字符类型

数据的读取:import pandas

函数	作用
pandas.read_csv("文件名.csv")	数据读取，产生dataframe结构
info = pandas.read_csv("文件名.csv")	注意把代码和文件放在一个文件夹下，不然就要写文件的绝对路径才行
info.head()	把读进来的数据显示前5行
info.tail()	读进来的数据显示后几行
info.max()	求最大值
info.min()	求最小值
info.mean()	求平均值
info.dropna(axis=,subset=)	丢掉当前缺失值
info.reset_index(drop=True)	重新排序
info.pivot_table(index="",values="",aggfunc=np.sum)	数据透视表,aggfunc不写的话默认求均值
print(info.columns)	打印列名
print(info.shape)	打印数据的行列值
print(info.loc[0])	打印第1行的值
print（type(info)）	打印类型
print（info.dtypes）	打印包含的数据类型
print(help(pandas.read_csv))	打印read_csv的帮助文档
len(info)	判断长度，个数
sum(info)	求和
pandas.isnull(info)	判断是否是缺失值

排序

函数	作用
info.sort_values("",inplace=True)	从小到大的排序
info.sort_values("",inplace=True，ascending=False)	ascending=False指定从大到小排序

自定义函数

info.apply(函数名)||前面需要定义自定义的函数

series结构

dataframe中一行或一列叫series，series里面的结构又叫ndarray
新建series结构：
from pandas import Series
Series(变量名，index=变量名)
sorted(变量名)|排序

上一篇下一篇

猜你喜欢

热点阅读