04python数据分析处理库_pandas
2018-03-07 本文已影响15人
从0到1的小姐姐
Anaconda直接安装好了pandas,封装了很多函数,在Numpy的基础之上
shift+enter
运行
object就是个字符类型
数据的读取:import pandas
函数 | 作用 |
---|---|
pandas.read_csv("文件名.csv") | 数据读取,产生dataframe结构 |
info = pandas.read_csv("文件名.csv") | 注意把代码和文件放在一个文件夹下,不然就要写文件的绝对路径才行 |
info.head() | 把读进来的数据显示前5行 |
info.tail() | 读进来的数据显示后几行 |
info.max() | 求最大值 |
info.min() | 求最小值 |
info.mean() | 求平均值 |
info.dropna(axis=,subset=) | 丢掉当前缺失值 |
info.reset_index(drop=True) | 重新排序 |
info.pivot_table(index="",values="",aggfunc=np.sum) | 数据透视表,aggfunc不写的话默认求均值 |
print(info.columns) | 打印列名 |
print(info.shape) | 打印数据的行列值 |
print(info.loc[0]) | 打印第1行的值 |
print(type(info)) | 打印类型 |
print(info.dtypes) | 打印包含的数据类型 |
print(help(pandas.read_csv)) | 打印read_csv的 帮助文档 |
len(info) | 判断长度,个数 |
sum(info) | 求和 |
pandas.isnull(info) | 判断是否是缺失值 |
排序
函数 | 作用 |
---|---|
info.sort_values("",inplace=True) | 从小到大的排序 |
info.sort_values("",inplace=True,ascending=False) | ascending=False指定从大到小排序 |
自定义函数
info.apply(函数名)||前面需要定义自定义的函数
series结构
- dataframe中一行或一列叫series,series里面的结构又叫ndarray
新建series结构:
from pandas import Series
Series(变量名,index=变量名)
sorted(变量名)|排序